AWS服务中断数小时，部分服务停止

作者： CBISMB

责任编辑：邹大斌

来源： ISMB

时间： 2025-10-21 10:17

关键字： AWS,云服务,故障

点赞： 76

收藏： 12

10月20日上午，亚马逊网络服务公司（AWS）位于北弗吉尼亚州的数据中心集群发生服务中断，影响了部分服务。到下午，AWS报告称问题已解决。

AWS在太平洋标准时间午夜刚过不久便披露了此次问题。与此同时，用户开始无法访问ChatGPT、Disney+、Snapchat、Venmo、Perplexity以及一长串其他在线服务。AWS的母公司亚马逊公司（Amazon.com Inc.）的一些服务（包括Alexa+）也受到了影响。

“随着‘氛围编程’（vibe coding）和人工智能应用的普及，基础设施正变得越来越复杂，也越来越脆弱，”流体云有限公司（FluidCloud Ltd.）联合创始人兼首席技术官哈尔希特·奥马尔表示，“更多的中断即将来临。供应商锁定（Vendor lock-in）就是新的停机时间。”

此次中断由AWS位于美国东部1区（US-EAST-1）的云区域一系列技术问题引发。一个云区域由多个可用区（availability zones）组成，每个可用区是独立供电的数据中心园区。US-EAST-1包含6个可用区，是大多数其他AWS云区域的两倍。

AWS于太平洋时间凌晨12:11在其状态页面上首次确认了故障。其工程师在一份备忘录中指出，该问题影响了托管在US-EAST-1区域的多个云服务。此外，一些客户在提交支持工单时也遇到了困难。

大约一小时后发布的通知中，AWS披露问题影响了其托管的NoSQL数据库Amazon DynamoDB。故障出在客户工作负载用于与DynamoDB交互的应用程序编程接口（API）上。该API的DNS机制（负责将URL解析为相应服务器的IP地址）出现故障。

在AWS首次确认中断三小时后，其工程师宣布已“完全缓解”DNS故障。然而，他们在此过程中发现了第二个问题：用户难以启动Amazon EC2实例。这一新故障引发了一场持续数小时的故障排查工作。

当AWS工程师正在修复EC2问题时，又出现了两个新问题。第一个影响了AWS Lambda无服务器计算服务（开发者用它来托管代码），该服务无法读取由另一项AWS服务Amazon SQS传递给它的数据。第二个问题是美国东部1区出现了网络中断。

在接下来的几个小时里，AWS发布的更新显示，这三个故障在一定程度上是相互关联的。上午8:43，这家云服务巨头表示，已对EC2实例的启动进行了限流，以加快网络问题的恢复。上午10点刚过，AWS披露，这些网络问题导致了Lambda服务的部分错误。

美国东部1区的网络故障，源于一个负责监控其负载均衡器健康状况的系统出现问题。负载均衡器是一种设备，用于确保网络流量在服务器之间均匀分配，避免大量数据涌入单台机器的情况。

“网络无疑是AWS服务的基础组件，”数据服务提供商DataStrike LLC的云技术总监科里·贝克表示，“当像US-EAST-1这样的区域网络出现问题时，影响远不止于此，它会波及EC2、S3、DynamoDB、RDS以及几乎所有依赖这些服务的系统。你必须以‘故障会发生’为前提来设计系统，因为它终究会发生。”

AWS于上午8:43确定了网络问题的根本原因，并很快开始推出缓解措施。在中午的更新中，该公司表示，其工程师已观察到“所有AWS服务都在恢复中”，但Lambda服务仍存在间歇性错误。

此次中断发生在四年前另一次持续数小时的US-EAST-1故障之后，那次故障同样导致众多第三方服务瘫痪。与本次中断类似，那次事件也是由DNS错误开始的。AWS工程师后来确定，那次中断是由其某项云服务的自动扩展引擎引发的。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

AWS服务中断数小时，部分服务停止

相关推荐

智库专家

解决方案