AWS服务中断数小时,部分服务停止
作者: CBISMB
责任编辑: 邹大斌
来源: ISMB
时间: 2025-10-21 10:17
关键字: AWS,云服务,故障
浏览: 1307
点赞: 76
收藏: 12
10月20日上午,亚马逊网络服务公司(AWS)位于北弗吉尼亚州的数据中心集群发生服务中断,影响了部分服务。到下午,AWS报告称问题已解决。
AWS在太平洋标准时间午夜刚过不久便披露了此次问题。与此同时,用户开始无法访问ChatGPT、Disney+、Snapchat、Venmo、Perplexity以及一长串其他在线服务。AWS的母公司亚马逊公司(Amazon.com Inc.)的一些服务(包括Alexa+)也受到了影响。
“随着‘氛围编程’(vibe coding)和人工智能应用的普及,基础设施正变得越来越复杂,也越来越脆弱,”流体云有限公司(FluidCloud Ltd.)联合创始人兼首席技术官哈尔希特·奥马尔表示,“更多的中断即将来临。供应商锁定(Vendor lock-in)就是新的停机时间。”
此次中断由AWS位于美国东部1区(US-EAST-1)的云区域一系列技术问题引发。一个云区域由多个可用区(availability zones)组成,每个可用区是独立供电的数据中心园区。US-EAST-1包含6个可用区,是大多数其他AWS云区域的两倍。
AWS于太平洋时间凌晨12:11在其状态页面上首次确认了故障。其工程师在一份备忘录中指出,该问题影响了托管在US-EAST-1区域的多个云服务。此外,一些客户在提交支持工单时也遇到了困难。
大约一小时后发布的通知中,AWS披露问题影响了其托管的NoSQL数据库Amazon DynamoDB。故障出在客户工作负载用于与DynamoDB交互的应用程序编程接口(API)上。该API的DNS机制(负责将URL解析为相应服务器的IP地址)出现故障。
在AWS首次确认中断三小时后,其工程师宣布已“完全缓解”DNS故障。然而,他们在此过程中发现了第二个问题:用户难以启动Amazon EC2实例。这一新故障引发了一场持续数小时的故障排查工作。
当AWS工程师正在修复EC2问题时,又出现了两个新问题。第一个影响了AWS Lambda无服务器计算服务(开发者用它来托管代码),该服务无法读取由另一项AWS服务Amazon SQS传递给它的数据。第二个问题是美国东部1区出现了网络中断。
在接下来的几个小时里,AWS发布的更新显示,这三个故障在一定程度上是相互关联的。上午8:43,这家云服务巨头表示,已对EC2实例的启动进行了限流,以加快网络问题的恢复。上午10点刚过,AWS披露,这些网络问题导致了Lambda服务的部分错误。
美国东部1区的网络故障,源于一个负责监控其负载均衡器健康状况的系统出现问题。负载均衡器是一种设备,用于确保网络流量在服务器之间均匀分配,避免大量数据涌入单台机器的情况。
“网络无疑是AWS服务的基础组件,”数据服务提供商DataStrike LLC的云技术总监科里·贝克表示,“当像US-EAST-1这样的区域网络出现问题时,影响远不止于此,它会波及EC2、S3、DynamoDB、RDS以及几乎所有依赖这些服务的系统。你必须以‘故障会发生’为前提来设计系统,因为它终究会发生。”
AWS于上午8:43确定了网络问题的根本原因,并很快开始推出缓解措施。在中午的更新中,该公司表示,其工程师已观察到“所有AWS服务都在恢复中”,但Lambda服务仍存在间歇性错误。
此次中断发生在四年前另一次持续数小时的US-EAST-1故障之后,那次故障同样导致众多第三方服务瘫痪。与本次中断类似,那次事件也是由DNS错误开始的。AWS工程师后来确定,那次中断是由其某项云服务的自动扩展引擎引发的。