AWS责备星期二的中断
亚马逊网络服务今天表示,本周早些时候的停电,受影响的主要网站和应用是由人为错误引起的。
包括Netflix,Reddit和相关新闻的网站周二挣扎数小时 - 所有都是因为一个简单的错字。
“虽然我们为亚马逊S3提供了我们的长期记录,但我们知道这项服务的关键是我们的客户,他们的应用程序和最终用户以及他们的业务,”该公司在在线消息中写道。“我们将尽一切努力从此活动中学习,并使用它来提高我们的可用性。”
周二早上,AWS在其服务健康仪表板上报告了它的S3或简单的存储服务问题,位于弗吉尼亚州北部的其数据中心。
[进一步阅读:云之战:亚马逊Web服务与Microsoft Azure与Google云平台]这个问题甚至影响了AWS仪表板,直到下午5点到下午5点。那天。
现在,AWS正在提供发生的事情的解释。
“亚马逊简单的存储服务(S3)团队正在调试一个问题,导致S3结算系统进展比预期更慢,”公司指出。“在[12:37下午12:37],使用已建立的Playbook的授权的S3团队成员执行了一个命令,该命令旨在为S3计费过程使用的S3子系统之一删除少量服务器。
[评论这个故事,请访问Computerworld的Facebook页面。]“遗憾的是,输入命令的一个输入中的一个输入不正确,并且删除了更大的服务器,而不是预期的,”消息添加。
ZK Research的分析师Zeus Kerravala表示,这不令人惊讶的是,这种主要问题是由人为错误引起的。
“我的研究表明,37%的IT中断来自人类错误,”他说。“它是可怕的,表明,尽管技术方面这么多,但我们仍然很大程度上被手动流程。这是更好的自动化和机器学习可以提供帮助的一个例子。“
AWS今天在其在线留言中,其工程师周二从中学到了学会,并正在制定改变以试图让它再次发生。
“虽然删除容量是一个关键的操作练习,在这种情况下,使用的工具允许太多的容量太快地删除,”该公司解释说。“我们已修改此工具以更慢地删除容量,并添加保障保障,以防止在将任何子系统下降到其最低所需容量级别的子系统时被删除。”
根据AWS,应该阻止触发另一个中断的错误输入。
该公司还指出,工程师正在审核其他操作工具,以确保它们具有相似的安全检查。
“我们还将改变改进键S3子系统的恢复时间,”AWS指出。“我们采用多种技术来允许我们的服务快速从任何故障恢复。”
Moor Insights&Stronge的分析师Patrick Moorhead表示,他认为这一事件将在短期内给AWS黑眼睛。
“令人难以置信的是,认为一个人在一个命令上一个人可以取数百万用户的错误,”他说。“人们应该从AWS期待更多......这一事件将使企业介绍将某些工作负载和应用程序移动到公共云,并激励他们仔细观察私有云。“
为了他的部分,Kerravala表示,他希望云竞争对手谷歌和微软跳上这一AWS事件并试图推动任何丢失的业务。