【BBC精选】亚马逊就大规模AWS服务中断向受影响客户致歉

亚马逊网络服务公司(AWS)为周一大规模宕机影响客户致歉，此次宕机导致一些全球最大平台瘫痪。据报道，12月7日，由于这家云计算巨头在美国北弗吉尼亚州的运营中心出现问题，Snapchat、Reddit和劳埃德银行等逾1000家网站和服务出现故障。在一份关于宕机原因的详细摘要中，亚马逊表示，宕机是由于内部系统错误导致网站无法与计算机用于查找网站的IP地址建立连接。该公司表示：”我们为此事件给客户造成的影响道歉。”

“我们深知自身服务对客户及其应用程序、终端用户和企业运营的重要性。此次事件对众多客户造成了严重影响。”虽然《Roblox》和《堡垒之夜》等在线游戏平台在宕机数小时后恢复运行，但部分服务仍经历长时间中断。这包括劳埃德银行（部分客户直到下午三点仍遇到问题），以及美国支付应用Venmo和社交媒体网站Reddit。

此次AWS宕机事件影响深远——据报道甚至干扰了部分智能床用户的睡眠。生产具备温度和高度调节功能的智能床垫品牌Eight Sleep表示，由于部分床垫出现过热甚至卡在倾斜位置的情况，将致力于打造”防宕机”床垫。许多专家指出，这次宕机表明科技行业对亚马逊在云计算领域主导地位的过度依赖，该市场目前主要由AWS和微软Azure占据。该公司承诺将”竭尽所能”从此次事件中汲取教训，提升服务可用性。

亚马逊在周一服务中断事件的详细报告中指出，事故根源在于US-EAST-1区域——这个支撑互联网多数功能的全球最大数据中心集群出现了系统故障。该区域用于存储和管理域名系统记录的核心数据库发生同步紊乱，导致计算机无法正常解析网页地址。

亚马逊解释称，这引发了一种”潜在竞争条件”，即在极低概率的事件序列中被触发的休眠漏洞。周一凌晨某进程出现的延迟产生连锁反应，最终导致系统功能失常。由于该流程高度自动化，全程无需人工干预。

英国工程技术学会专家、软件工程师朱纳德·阿里博士向BBC表示：”故障自动化”是亚马逊此次事故的核心症结。”具体技术原因是错误自动化程序破坏了该区域内部依赖的’地址簿’系统，致使系统无法定位其他关键组件。”

阿里博士与其他专家一致认为，此事警示企业需提升系统韧性并实现云服务供应商多元化，”以便在某个服务不可用时能快速切换至其他数据中心或供应商”。他强调：”在此次事件中，那些在亚马逊该区域存在单点故障的体系都面临服务中断风险。”

订阅Tech Decoded时事通讯，追踪全球顶尖科技动态与趋势（英国境外用户请通过指定通道注册）。

【本文精选自BBC，原文链接：https://www.bbc.com/news/articles/cvgvnp77dy9o】

【BBC精选】亚马逊就大规模AWS服务中断向受影响客户致歉

相关文章

【BBC精选】帕迪鲍尔必发因问题赌博失职被罚款200万英镑

【BBC精选】BBC宣布将就唐纳德·特朗普的诽谤指控进行抗辩——但这样做合适吗？

【BBC精选】据报道，华纳兄弟将拒绝1080亿美元收购派拉蒙的提议

You missed

【BBC精选】帕迪鲍尔必发因问题赌博失职被罚款200万英镑

【BBC精选】BBC宣布将就唐纳德·特朗普的诽谤指控进行抗辩——但这样做合适吗？

【BBC精选】据报道，华纳兄弟将拒绝1080亿美元收购派拉蒙的提议

【BBC精选】服装和食品价格下降推动通胀降幅超预期