亚马逊云撞车迫使澳大利亚企业从沙滩上抬起头
6月初,亚马逊网络服务(AWS)基于悉尼的云在暴风雨期间被削减了电源后,一些客户无法获得最多10个小时。
该事件表明,即使是世界上最大的云计算平台也容易受到定期失败的影响,这意味着企业云用户仍必须考虑业务连续性计划 - 特别是对于关键任务应用程序。
AWS云由澳大利亚组织使用,例如英联邦银行,会计软件业务MYOB和广告交易平台品牌屏幕,并举办热门消费游戏,水果忍者。
虽然水果忍者球员可能暂时沮丧,但不能爆炸一个香蕉,商业服务中断更为严重,而且事件提醒人们即使他们已经签署了云,企业也不能忽视业务连续性规划。
亚马逊的服务健康网站跟踪云的性能,显示悉尼云上的EC2实例在风暴期间大约两个小时,为其他亚马逊云服务,诸如红移,弹性豆展示,存储网关和云形成。10个小时后,大多数问题都得到了解决。
停电后五天,亚马逊发布了这一事件的后验尸,该事件称,饲养数据中心的电力变电站在风暴中抨击,AWS的不间断电源失败。
即使在权力恢复之后,AWS实例管理软件中的软件错误意味着恢复速度慢于客户。
AWS向客户道歉不便,现在正在大修其电源基础设施和软件,以减少它再次发生的机会。
但它还指出:“对于此事件,在该区域的多个可用区域中运行其应用程序的客户能够在整个事件中保持可用性。对于需要其应用程序的最高可用性的客户,我们继续推荐使用此架构运行应用程序。“
但这对于具有数据主权问题的客户来说,这是一个选择,因为AWS在澳大利亚的多个地区没有数据中心,只在悉尼地区。
据Gartner研究总监Olive Huang表示,太多公司采取了“鸵鸟方法”到云业务连续性,期待他们的云供应商照顾房子的那一边。“你可以有冗余,但它花钱,”她说。“人们去公共云非常善良。”
黄说,虽然IT部门在内部系统中运行,但围绕系统故障设计的业务连续性和灾难恢复计划,企业可能会容的,但在公司购买云时往往缺乏。
她说,这个问题复杂了,因为云服务通常不会被它购买,而是由业务,这么少的想法被投入到业务连续性。“只有在这些事情发生时,有人需要清理,”她补充道。
Pegasystems的创始人和首席执行官Alan Trefler认为,云计算在许多企业中发挥着重要作用 - Pegacloud在亚马逊云上运行 - 但警告这不是所有业务需求的灵丹妙药。
他说,在拉斯维加斯的Pegaworld上对电脑谈谈:“人们在各种各样的奇怪和神奇的云中使用云 - 不是以好方法 - 方式。”
Trefer警告说,虽然云有一个角色 - 特别是混合解决方案混合私人,公共云和本地解决方案 - 它不应被视为有效计算策略的灵丹妙药。
他说,在确定要定位计算工作负载的位置时,“很多这取决于失败的后果”。
例如,对于netflix,云失败可能需要人们来重新录像,但这不是一个不可逾越的问题。但对于将健康监测设备链接到护理管理平台的医疗应用,云连接的丧失可能是生命或死亡问题,说这位特雷弗勒。
Pegasystems Anz董事总经理斯科特领导人的说法,PEGASYSTEMS拥有100个普拉克伦的PEGACLOUD的用户,其中包括银行和政府。他说,当AWS悉尼云下来时,“有一些影响力,但它得到了很快解决。
Julian Anderson,数字创新主管和保险巨头QBE的IT战略,目前正在其中一些新兴市场驾驶Pegacloud。“我们之前有停电,但一般来说,基础设施稳定,”他说。“这对银行而不是保险公司来说将更多的问题。
“我们看起来要做的一件事是有一个版本的应用程序在线,以便人们可以在没有云连接的情况下继续工作,然后稍后备份交易。”
这提出了第二个业务连续性问题。即使底层云平台正在工作,除非可用通信网络,消费者,合作伙伴和偏远工人将无法访问它。例如,Telstra最近的网络崩溃留下了许多人无法连接到云服务的几个小时。
Gartner的Huang补充道:“如果船舶切断电缆,则拧紧 - 并且发生了。”
由于使用云而不是内部系统的企业对业务连续性规划的关注较少“因为云供应商营销机器,并且他们如此大的认为,如果他们确实下降,他们应该迅速恢复“,黄补充道。
对于正在研究公共云的可靠性的公司,CloudHarmony为世界各地的各种供应商和地区提供仪表板。该服务给出了目前提供的云质量的直升机看法 - 但无法预测悉尼风暴等一次性事件,以及对AWS用户的淘汰效果。
然而,亚马逊承诺筹集比赛。
它的验尸与道歉结束并注意到了:“我们知道我们的客户的业务是如何关键。我们永远不满意的操作表现,这些操作表现不如完美,我们会尽一切努力从这个活动中学习并使用它来推动我们的服务的改进。“