又崩了!6月13日,某网股票证券分析软件又崩了,话题又冲上了热搜榜一。
对于此次的异常问题,该软件做出回应:因为其云服务商的服务节点出现了故障。
<该软件回应>
据了解,此次是其云服务商的地区服务节点出现问题,已于当日恢复正常。
云计算在给个人和企业用户带来诸多便利的同时,近几年来频繁发生的各种云事故也增加了人们对云的担心。
宕机“新常态”
宕机事故不可预测,因此它也被称为系统中的“黑天鹅”。可以先回顾一下近年引起广泛关注的云事故。
# 国内宕机事件
2021年7 月 13 日晚间,视频网站哔哩哔哩(B 站)出现服务器宕机事故,无法登陆的用户涌向其它站点,连锁导致了一系列宕机事故。“B 站崩了”、“豆瓣崩了”、“A 站也崩了”、“晋江崩了”等接连冲上了热搜。
2021年10 月 9 日凌晨,互联网券商富途证券 App 出现故障,用户无法登录进行交易。创始人发 2000 字硬核长文解释技术故障。
2021 年 12 月 20 日,西安“一码通”因访问量过大导致系统崩溃。2022 年 1 月 4 日上午 9 时,西安“一码通”第二次崩溃。
# 国际宕机事件
2021年10 月 4 日,美国社交媒体 Facebook、Instagram 和即时通讯软件 WhatsApp 出现大规模宕机,此次宕机长达近 7 个小时,市值一夜蒸发三千亿。
2021年11 月 16 日,据国外媒体报道,全球最大的云服务提供商之一谷歌云(Google Cloud)出现了宕机,导致许多依赖于谷歌云的大型公司网站中断服务。
2021 年的最后一个月,AWS 发生了 3 次宕机。
从上面的宕机案例可以看出,随着云服务的普及,各种原因的宕机会成为一种常态,出现宕机的情况其实很常见。就像服务器厂商不可能承诺自己的服务器100%不出问题一样,云服务商也不会做出相同的承诺。根据墨菲定律效应,客户应当对云服务提供方保持适当的预期。
这也说明,即使是云全面普及的时代,灾备、高可用性的需求仍会存在。用户必须认真考虑云平台的高可用性和灾备需求。
建设高可用云平台
对于云计算厂商和上云企业来说,云平台的高可用是必须要考虑的原因之一。
云平台的高可用建设可以分为成两个方面:
1、高可用架构设计
云服务供应商在云数据中心可用区里面设计高可用架构,或者是在跨区域的可用区里面实现系统高可用,以保障企业用户数据的安全性和业务的连续性。
2、灾备中心建设
有实力的企业通常采用私有云的灾备解决方案——“两地三中心”,在同城、异地建立生产中心、同城容灾中心、异地容灾中心,实现容灾与数据备份,避免云平台故障时造成的业务中断和数据丢失。
对于金融机构或者大型企业这些“关键信息基础设施运营者”,可以采取将弹性业务和非关键数据放在公有云,核心业务和重要数据放在自己搭建的私有云上的方式,实现公有云、私有云和传统基础设施的混合应用,将核心数据掌握在自己手中。
做好云灾备方案
云灾备就是将传统采用物理机的灾备端替换为云平台,以便提供更具弹性、灵活性和经济性的灾备服务。
灾难恢复,不论是采用传统的架构,或是采用云,其核心问题都是数据的复制。数据复制一定要及时、有效、可靠,这样才能算是有效恢复。
企业机构业务上云后,业务的安全性、可用性需要从云的整体系统架构层次来考虑,多云部署是提高安全性和可用性的有效方式之一。
有实力的企业容灾、高可用架构都是采用如两地三中心灾备、公有云与私有云混合灾备等等,但同时也给使用者带来了巨大的管理困难,企业多云架构如何提升管理和可用性?
除主流的私有云、虚拟化平台外,云宏WinCloud云管理平台支持阿里、腾讯、华为等三大公有云纳管,提供混合云异构管理、跨云编排与灾备等解决方案,多云治理更安心。
- END -
| 留言与评论(共有 0 条评论) “” |