服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

数据中心运维祖训“没有折腾,就没有故障”

日期: 来源:企业网D1Net收集编辑:数据中心

人工智能+区块链的发展趋势及应用调研报告

“没有折腾,就没有故障”这句话虽糙,但却很有道理,尤其在运维上。据有关咨询机构统计,数据中心的故障中有百分之七十是人为故障,也就是与人的活动强相关,可见人对于数据中心来说是多么可怕。人为故障其中也可以分为有意的和无意的。有意的是指明知道一些操作会造成数据中心故障,仍执意去做的,这些人往往希望通过造成数据中心运行瘫痪,而达到不可告人的目的,这种故障占到了人为故障的80%,剩余的就是无意的。

数据中心本身是一个复杂庞大的系统,运维的人员不可能面面俱到都精通所有技术细节,当接触到自己不熟悉或不了解的地方,操作易引发意想不到的结果。还有不少的设备,软件质量不高,反复操作下发就容易引发软件问题,从而造成业务中断。这种情况在数据中心里还不少见,数据中心里设备成千上万,数量庞大,动一动问题就来了,所以运行稳定的数据中心不要轻易去改动,就让它自己处于最佳状态去运行下去。

众所周知,但凡遇到一些重大节日和活动,大型的数据中心都会进行封网,停止一切操作和活动行为,目的就是为了减少故障发生,将人为操作风险降低,将触发BUG的风险降低。这种方式行之有效,除了可能出现一些硬件故障外,几乎很少发生其它类问题。

我们都知道乌龟的寿命很长,活上几百年轻飘飘的,就是因为乌龟很少动,移动缓慢,这大大延长了它的生存寿命。数据中心运维也喜静不喜动,少动慎动,这能最大程度减少故障发生。金融银行业的数据中心对可靠性要求很高,为了避免出故障,银行的数据中心内部制定了严格的操作制度,所有的操作都要遵守统一规范,任何命令的下发和变更都要经过行里提前审核,甚至在模拟环境中验证过没问题,才开始到现网中去实施操作,银行业的数据中心操作最为规范,使得数据中心的可靠性也最高。

不过,为了快速响应业务需求和提高资源利用率,运维又不得不频繁折腾,不动基本做不到。一个数据中心可能每周晚上都有安排变更,还有设备软件升级、配置优化、设备替换等工作,数据中心总是有没完没了的变更操作,这样不可避免地在操作过程中出现一些新问题,导致数据中心总是无法稳定下来,业务经常受到影响,这其实就违背了运维祖训的宗旨。

数据中心里需要的技术知识太多,涵盖多个学科几十个门类,没有谁能全部掌握,完全掌握一门都很难,这时制定相应的操作,受限知识面,总会有考虑不周的地方,一旦有漏掉就可能在操作过程中产生问题。对于变更操作,任何人都没有绝对的把握,凡事都可能有意外,就像是做手术,再小的手术也是有风险的,也要家属签字,万一出了事故手术操作者能免责。

既然不能避免折腾,那就想办法不让折腾出问题。

首先要分治。分治就是把风险高的和风险低的分开、重要性高的和不高的分开、简单的和复杂的分开、频繁变动的和不频繁的分开。归根到底都在做两件事:封装复杂度、隔离变化。运维架构层的分治,在业界已经非常普遍了,比如应用服务器和数据库服务器分离、交易数据库和用户数据库分离,生产环境和测试环境隔绝。数据中心是有很多小系统组成的,相互之间要松耦合,最好是隔离的,这样一个小系统故障,影响是局部的,不会影响全局。

其次是管人。要减少人为折腾出的故障,就要加强对人的约束和管理。不同技术等级的人能做的操作权限是不同的,一个新手要上线操作,必须要由老工程师来指导。要制定详细的人员管理规章制度,对运维的人员形成约束力,对运维的人员进行考核、监控、管理,增强运维人员工作的责任心,有奖有罚。制定严格的各项规章制度,一般的数据中心都需要24小时常年不间断向外提供服务,所以要给数据中心人员充分的休息时间,按时的上下班,避免长时间工作、疲劳工作,减少出错概率。

第三是管事。当数据中心需要变更和优化操作时,需要运维团队的人员进行整体讨论,对预知的风险进行分析,确保操作不会对运行业务造成影响。每个变更都是整个技术团队的讨论通过做出的决定,而不是个人的行为,这样能将技术性人为故障降到最低。要制定好回退方案,一旦出现异常情况立即回退,事后将原因分析情况后再进行二次变更。毕竟运维的人员都不是专业搞设备的,对设备内部处理和实现并不见得很清楚,重大的变更操作可以邀请设备厂家的技术人员参与和支持,降低操作错误的风险。每次操作都要做好充分准备,必要的模拟演练、提前的业务搬移、紧急通道的准备等都需要,这样才能降低故障发生的风险。

“没有折腾,就没有故障”是金口良言,听上去很有道理,实际却很难做得到。数据中心本就是一个数据高速流动的场所,业务需求时时都在变化,为了满足业务部署和发展的需求,不让对数据中心变更、折腾,根本就是做不到,“没有折腾”只是一种理想的状态罢了。不过,的确是应该最大限度地去主动降低数据中心操作频率,尽量少动,这样可极大降低故障发生概率。人是数据中心活动中的最重要因素,没有人的参与哪里来的数据中心,而偏偏人也同时给数据中心带来成长的烦恼,人在运维的过程中作用依然举足轻重。作为数据中心的运维人,要时刻牢记祖训。

相关阅读

  • 新春走基层 | 咸阳电力抢修 守护万家灯火

  • 兔年脚步日益临近,一线电力工人默默坚守工作岗位,为千家万户保障供电安全。1月6日下午,国网咸阳市高新供电公司抢修班值班长刘瑞涛和同事们套着脚扣,腰上系着安全带,在高新区汉仓
  • 迎寒而上 淬火锻剑铸精兵

  • “快、快、快,1分20秒,1分23秒......”加油!加油!此次陈波同志的成绩为1分25秒。一月的肃南,天寒地冻,战意满满,队员们在灭火装备操作演练训练场上摸爬滚打,展现出一幅幅奋勇拼搏的
  • 远程操作龙门吊,阳逻港更“聪明”了

  • 长江日报大武汉客户端12月29日讯(记者汪文汉 通讯员胡玲玲)12月28日,阳逻港首批两台远程控制龙门吊正式投入作业,这标志着阳逻港打造智慧化港口再次迈出了
  • 如何夯实数字经济发展的“算力底座”?

  • 智慧城市、智慧医疗、智慧农业……随着数字时代的到来,算力已成为继热力、电力之后的新型生产力。据《2021—2022全球计算力指数评估报告》显示,计算力指

热门文章

  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 哈里新书自曝吸毒,恐将被禁止入境美国

  • 极目新闻记者 孙喆据英国《每日邮报》8日报道,英国哈里王子在即将出版的新书《Spare》中爆料自己曾吸毒后,有专家警告说,哈里王子可能会因此被禁止入境美国,他的签证也“面临风
  • 与Hishorts!同行的创作者们

  • 2022年的最后一周,在还有些许冷清的鼓浪屿上,阳光与海风却很温柔。这与落地于此的Hishorts!厦门短片周相映成趣——今年来到现场的创作者、从业人员或观众都比往年少了很多,但