服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

什么样的系统是具备高可用能力的呢?

日期: 来源:程序员泥瓦匠收集编辑:DD

点蓝字关注,一起程序员弯道超车之路



故障,是每个技术人都不愿遇到,但却总会遇到的事件。程序Bug、安全漏洞、黑客攻击、服务器宕机、网络中断等诸多因素都有可能引发系统故障,使我们的业务面临瘫痪的窘境。这样的例子,国内外都在不断的发生,比如:
  • 2020年,由于严重的全澳性IT故障,Coles的收银机全部不能联网,down机瘫痪。收银员扫不了货品顾客也不能结账,澳洲每家Coles超市都被迫暂时关闭。
  • 2018年,上海的医疗保险信息系统就突发故障,波及上海各大医院的结算系统,致使大量市民在就医时无法正常使用医保卡,众多医院的排队窗口前纷纷大排长龙,场面混乱。事发之后就有不少网友质疑,涉及面如此之广的医保信息系统,“难道没有应急措施?”

这些活生生的真实案例都在提醒我们,技术赋能业务产生更高效率、获取更多价值的同时,保障系统稳定运行也至关重要。一旦系统出现大范围、长时间故障,致使业务中断的后果可能直接磨灭技术赋能带来的收益,甚至还可能带来经济损失、品牌受损等严重后果。

所以,有必要给我们的系统上一份“保险”——构建高可用的系统架构,这是每个技术团队都在努力的核心目标。

什么是高可用

那么怎么样的系统是否具备高可用能力的呢?我认为主要考量两个方面:容错与容灾。

容错能力指的是当故障来临时,业务系统是否可以不中断,继续服务的能力。常规措施就是集群化部署,同样业务的应用部署多台服务器,即时有个别服务坏了,其他服务依然可以提供业务支持。这就像飞机配置多台引擎一样,即时有一台坏了,剩下的依然可以支撑它飞行到指定地点安全着陆。

容灾能力指的是当重大灾难来临时,容错能力已经全部失效了,但我们依然有能力通过一些手段让业务重新恢复。常规措施就是备份,当某个机房发生了严重的故障,所有服务器都无法正常工作了,但数据备份还在,那我们就可以重新加载它们并让系统重新运行起来。这就好比飞机上的引擎全部坏了,但为了保证飞行任务以后还能执行,必须提供保护飞行员逃生的装置,比如通过弹射跳伞的方式令其可以幸存下来,之后又继续再其他飞机上继续执行任务。

高可用系统的构建准备

首先,在构建高可用系统之前,我们要对故障有几个基本的认识:没有任何一个设施是100%安全可靠的。所以,一个系统在设计高可用架构的时候,复杂度随涉及的设施的数量增多而变高。

其次,我们需要尽可能的精简运维体系。简单的说,上云是大部分企业的最佳选择。除非自身团队在同预算的情况下,能够在基建维护上达到相同乃至更高的可用性。不然你机房建设、服务器、网络等基础设施的维护可能都将要你半条命。

再者,必须平常心对待可用性保障,这个道理就不多说了。意外总是在发生,翻翻过去的那些故障,是不是都还历历在目:

  • 2022年6月,Cloudflare的意外中断导致大量热门网站访问出现问题
  • 2021年12月,AWS大面积故障导致大量网站无法服务,亚马逊电商也遭受重创2021年5月,IBM Cloud在短短5天里连续发生两次严重的中断事故
  • 2020年3月,Google Cloud多个地区的云服务瘫痪,时间长达14小时
  • 2019年2月,Google Cloud因光纤受损出现网络问题,时间长达10小时
  • 2018年4月,Azure因受雷雨天气影响导致电压激增而中断服务,时间长达28小时

但是。正因为没有100%的无故障,我们才要用高可用,因为这是唯一挽救你造成巨大财产损失的机会。

最后,我们不得不正视一个云服务用户的常见误区。当我们选择云服务商的时候,需要明确云厂商到底给我们提供了哪些高可用能力,而剩下的高可用能力覆盖是需要我们自己设计和实现的。我们要知道,一个高可用系统的构建是贯穿基础设施、中间件、服务端、客户端等多方面的。对稳定性高度敏感的企业一定要平常心看待故障 ,用好高可用。

(下图展示了云服务厂商和用户的高可用上的责任模型:云服务商提供的主要是基础硬件服务的高可用能力。而我们之前所提到的业务容错(负载架构)、容灾(保障数据备份)能力都是在用户侧的。供参考)

所以,如果在上云的时候,对自身业务系统不做额外的高可用保障,那就很可能出现文章开始我们提到的那些业务窘境。

总结

今天跟大家聊了聊系统上云时,容易被忽略的高可用问题,以及如何做好云上高可用架构的方法。对此你有什么想法呢?留言区一起聊一聊。





↑ 点击即可关注 


关于我的近况

目前在 SaaS 创业中,如果你想成为技术高管或技术转创业,那必不可少的要懂商业、营销、产品等等。

也可以点击下方去阅读我 SaaS 创业的原创公号分享


相关阅读

  • 一起程序员弯道超车之路!

  • 大家好,我是子木我一直在从事 SaaS 软件行业,并一直研究付费软件。现在我刚刚 30 岁,预计还有 10 年时间来磨砺这个方向。记得 2 月左右,我开始在知识星球上写相关笔记,内容包括
  • docker基础

  • 简介Docker 使用 Google 公司推出的 Go语言 实现,基于 Linux 内核的cgroup、 namesapce等技术对进程进行封装隔离,由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容
  • 面试题|为什么抖音是上下滑,探探是左右滑

  • 这是一道PM面试题,挺有趣,聊一聊。探探是一款基于lbs的陌生交友平台,向左滑喜欢,向右滑无感。寻找与你相近的缘分,遇见双向奔赴的爱情。像极了几米《向左走,向右走》里的故事:他和
  • 补贴高达3000元,佛山这些人可以领!

  • 羡慕!最近佛山毕业生都在晒什么?佛山基层就业补贴!谁可以申请?想在佛山就业?想要创业?想了解有哪些扶持政策?有政策、有补贴、有保障!佛山最新毕业生就业创业政策补贴人社君给你整理
  • 合肥地铁1号线三期正式启动空载试运行

  • ★提升行业认知,成为资深读者:点上方「轨道世界」→右上角菜单→设为星标3月20日上午,合肥市轨道交通1号线三期正式启动空载试运行,标志着1号线三期工程进入开通运营前最后的冲

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 从零到一,创业必备干货社群

  • 不知不觉,已经加入生财有术好几年了,感触颇深:教练真的太优秀了(行业大佬),领队真的太细节了(表单文案高手)志愿者们真的太给力了(VIP陪伴),嘉宾们的分享太实在了(系统直接送)所以我会
  • ESG观察丨中国特色估值体系如何纳入ESG因子

  • 点蓝字关注,不迷路~去年11月 ,证监会主席易会满在金融街论坛年会上首次提出“探索建立具有中国特色的估值体系”。今年2月,在证监会系统工作会议上,易会满再次提及中国特
  • 什么样的系统是具备高可用能力的呢?

  • 点蓝字关注,一起程序员弯道超车之路故障,是每个技术人都不愿遇到,但却总会遇到的事件。程序Bug、安全漏洞、黑客攻击、服务器宕机、网络中断等诸多因素都有可能引发系统故障,使
  • 死而复生的男婴 | 重症产科18

  • 【重症产科】是资深临床医生第七夜在苍衣社开设的故事专栏,讲述产科医生夏花和她的同事们在危重孕产妇救治中心的救人经历,旨在让人看到生命诞生时的高光时刻。大家好,我是脸叔
  • 一起程序员弯道超车之路!

  • 大家好,我是子木我一直在从事 SaaS 软件行业,并一直研究付费软件。现在我刚刚 30 岁,预计还有 10 年时间来磨砺这个方向。记得 2 月左右,我开始在知识星球上写相关笔记,内容包括