亚马逊网络服务公司(AWS)为周一大规模宕机影响客户致歉,此次宕机导致一些全球最大平台瘫痪。据报道,12月7日,由于这家云计算巨头在美国北弗吉尼亚州的运营中心出现问题,Snapchat、Reddit和劳埃德银行等逾1000家网站和服务出现故障。在一份关于宕机原因的详细摘要中,亚马逊表示,宕机是由于内部系统错误导致网站无法与计算机用于查找网站的IP地址建立连接。该公司表示:”我们为此事件给客户造成的影响道歉。”
“我们深知自身服务对客户及其应用程序、终端用户和企业运营的重要性。此次事件对众多客户造成了严重影响。”虽然《Roblox》和《堡垒之夜》等在线游戏平台在宕机数小时后恢复运行,但部分服务仍经历长时间中断。这包括劳埃德银行(部分客户直到下午三点仍遇到问题),以及美国支付应用Venmo和社交媒体网站Reddit。
此次AWS宕机事件影响深远——据报道甚至干扰了部分智能床用户的睡眠。生产具备温度和高度调节功能的智能床垫品牌Eight Sleep表示,由于部分床垫出现过热甚至卡在倾斜位置的情况,将致力于打造”防宕机”床垫。许多专家指出,这次宕机表明科技行业对亚马逊在云计算领域主导地位的过度依赖,该市场目前主要由AWS和微软Azure占据。该公司承诺将”竭尽所能”从此次事件中汲取教训,提升服务可用性。
亚马逊在周一服务中断事件的详细报告中指出,事故根源在于US-EAST-1区域——这个支撑互联网多数功能的全球最大数据中心集群出现了系统故障。该区域用于存储和管理域名系统记录的核心数据库发生同步紊乱,导致计算机无法正常解析网页地址。
亚马逊解释称,这引发了一种”潜在竞争条件”,即在极低概率的事件序列中被触发的休眠漏洞。周一凌晨某进程出现的延迟产生连锁反应,最终导致系统功能失常。由于该流程高度自动化,全程无需人工干预。
英国工程技术学会专家、软件工程师朱纳德·阿里博士向BBC表示:”故障自动化”是亚马逊此次事故的核心症结。”具体技术原因是错误自动化程序破坏了该区域内部依赖的’地址簿’系统,致使系统无法定位其他关键组件。”
阿里博士与其他专家一致认为,此事警示企业需提升系统韧性并实现云服务供应商多元化,”以便在某个服务不可用时能快速切换至其他数据中心或供应商”。他强调:”在此次事件中,那些在亚马逊该区域存在单点故障的体系都面临服务中断风险。”
订阅Tech Decoded时事通讯,追踪全球顶尖科技动态与趋势(英国境外用户请通过指定通道注册)。
【本文精选自BBC,原文链接:https://www.bbc.com/news/articles/cvgvnp77dy9o】