威锋网 3 月 3 日消息,本周早些时候亚马逊的 Web Services 出现了严重的服务中断问题,导致多个在线服务掉线,包括苹果的 iCloud 平台。日前亚马逊已经发布了一篇博客,说明了为何会出现本次服务中断问题,指出因为人为操作失误而导致这个问题。
亚马逊在博客中表示,Simple Storage Service 团队当时正在调试以排除导致S3支付平台运行速度放慢的故障。在这个过程中,S3团队的某位成员执行了错误的指令,删除了一大组服务器,数量远超于本该删除的服务器数量。
亚马逊表示,S3 子系统支持在不对客户产生影响的情况下,删除大量服务器或者使服务器失效,但是因为近几年数量的暴涨,所以重启服务器以及运行安全检查的过程需要的时间比预期的要长。
为了避免此类情况再次发生,亚马逊已经更改子集,放慢删除服务器数量的速度,采取更多安全措施来执行检查,加速重启和运行检查的时间。亚马逊还对指数自系统进行重新分区,让每一个分区变得更小,缩短恢复时间。
本次亚马逊 Web Services 服务中断产生了不小的影响,受影响地区主要在美国东部。苹果部分基于 AWS 的 iCloud 服务也首次影响。亚马逊在博客的最后对本次出现的问题表示道歉。