编辑推荐

适读人群:数据中心的管理者、数据中心的一线运维人员、数据中心的技术人员、企业的管理层,以及有兴趣从事数据中心运维行业的人。
  

关于数据中心运维管理的书籍很多,但《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》不落俗套,令人耳目一新之处在于:

?资深的主创团队

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》支持单位和主创团队绝大多数参与过《数据中心场地基础设施运维管理标准》的编写;

?业内罕见的揭秘深度

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》由国内运维经营们联袂创作,其中不仅有成功经验,还有对挫折和教训的反思,甚至还有惊心动魄的数据中心火灾过程。

?新颖的内容布局

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》的两大部分,“运维人手记”和“关键设备运维指南”,既有内容丰富有趣的小说,还有专业的运维知识介绍。

们对运维要点的经验之谈。

内容简介

  

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》由实战经验丰富的数据中心运维达人、专家,以运维人手记的方式,分享这些年踩过的坑、蹚过的雷,不仅有成功经验,还有对挫折和教训的反思,甚至还有惊心动魄的数据中心火灾救援过程。内容分为两大部分,“运维人手记”和“关键设备运维指南”。第一部分是通过虚拟人物——运维人Peter和Tom,以小说体的形式介绍运维人员在实际工作中会经历的那些事儿。首次汇聚了业内运维精英的实操案例,有助于运维人员从别人的教训中吸收经验,降低自己犯错的概率。第二部分是由数据中心核心设备供应商们讲述数据中心的主要设备在运维过程中需要注意的要点,体现了厂商的多年技术积累和经验之谈,有助于运维人员提升设备维护水平。

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》适合数据中心运维工作人员、企业管理者,以及对信息系统和数据中心运维感兴趣的各界人士阅读。

作者简介

创作团队汇聚了中科仙络、中国联通、中国移动、招商银行、华为、中国电信、百度、世纪互联、平安银行等24家单位,48位国内运维专家。发起人是中科仙络董事长程小丹先生。程小丹,MBA毕业于美国印第安纳州立大学,曾担任美国电力转换公司中国区总经理、科士达公司总经理、世纪互联工程技术服务有限公司总经理,现成立博悦能集团担任董事长并收购中科仙络咨询服务有限公司。

精彩书评

  

随着上层应用、内容和流量等业务的蓬勃发展,大数据和云计算成果大范围应用,数据中心行业面临发展机遇。与此同时,超大型、集中化、定制化数据中心的出现也为其运维管理带来更为严峻的挑战。《从运维菜鸟到大咖,你还有多远》一书应时、应势而生。用通俗易懂的预研、深入浅出地展现了大型数据中心专业化运维管理的方方面面,把从业者从传统DC带入到新型IDC服务,使数据中心可以更好地服务于互联网,服务于客户,为吃从业者的专业运维工作提供了有益的帮助,是一部不可多得的经典之作。

——文静中国移动政企分公司云计算中心总经理

市场风云机会,互联网经济的发展离不开以企业家的责任感,以匠心精神耕耘专业。于高处着眼,于低处着手。这是一本有责任感,有专业精神,而且独具匠心的心血之作。

——曲颖伊顿电源大中华区总经理

运维工作决定着数据中心能否正常运行和所期望的功能能否实现。运维人员随时要惦记着系统运行是否存在隐患,系统是否具备连续运行的条件,设备故障是否可以快速修复,系统是否可以根据需要扩容,如何进一步提高运行效率等问题。运维工作不单单是设备维护,就目前情况来看,当务之急是确立正确的运维管理观念和提高运维人员技术水平。《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》从众多一线员工的实际经验中取材,用生动的语言介绍了什么是正确的运维管理观念,以丰富的故事案例讲述如何做运维。这是一本非常有意义的书。

——张广明中国科学院计算技术研究所研究员、中国电源学会专家委员会主席

信息系统运维是当下各行各业信息化建设的关键。老朋友程小丹先生领衔撰写的新书《从运维菜鸟到大咖,你还有多远》,内容充实,视角独特,既包括引人入胜的运维经理人的成长故事,又包括专业的信息技术设备运维要点解读,深入浅出,令人难以释卷。无论是数据中心运维工作人员、企业管理者,还是对信息系统和数据中心运维感兴趣的各界人士,都值得认真翻阅此书。

——刘九如电子工业出版社总编辑、华信研究院院长

目录

Part1运维经理人手记

Chapter1接手运维\5

Chapter2人员与组织\21

Chapter3网络运维\33

Chapter4培训与演练\45

Chapter5运维安全\61

Chapter6巡检\73

Chapter7维护\87

Chapter8操作流程\99

Chapter9应急处理\113

Chapter10服务器上架\129

Chapter11高效运行\143

Chapter12获得第三方认证\157

Part2关键设备运维指南

Chapter1高低压配电操作及维护指南\175

Chapter2备用发电机系统操作及维护指南\197

Chapter3UPS维护指南\221

Chapter4蓄电池维护操作指南\237

Chapter5冷冻水型空调系统维护指南\265

Chapter6风冷型空调运维指南\299

Chapter7综合布线系统运维指南\317

Chapter8KVM系统操作及维护指南\335

Chapter9DCIM维护要点\349

Chapter10运维操作管理系统DCOM使用指南\365

Appendix微模块介绍\377

精彩书摘

Chapter1运维经理人手记
1初来乍到
  在北京城难得的蓝天下,Tom抬头望着眼前这座宏伟的建筑,心里不由得赞叹:这就是传说中的“数据中心”?这座单体建筑,从外表上看不出里面有几层楼,但Tom的直觉告诉他这个建筑的面积得有2万~3万平方米。比起Tom同学之前在一家国企负责的300平方米机房,这个建筑就是“巨无霸”了。300平方米的机房虽说是麻雀虽小,但也五脏俱全。UPS、配电、空调、高架地板、监控,各种专业的设备该有的也都有了。一手负责建设了个300平方米机房,还运行了5年的Tom同学,觉得自己也算是半个机房专家了。但不知道从哪天起,周围的人都开始管机房叫数据中心了,Tom原来一直感觉数据中心比起机房,就是换汤不换药的时髦叫法,纯属某些厂商忽悠出来的概念。但今天看着这大型数据中心外面的专用变电站,Tom开始感觉到这数据中心确实和自己负责的机房有点不一样。自己要干好这大型数据中心运维的活,还真有不少新知识需要学习。
  Tom是上个月决定跳槽到这家数据中心来做运维的。其实Tom对于自己一手建设运行的机房还是很有感情。只是这几年公司的业务发展很快,除了国内的业务,还有不少国际业务,这就对他们IT支撑部门提出了24小时不间断运行的要求。Tom带领着一个小团队,负责公司唯一的数据机房的运维,从基础设施日常维护,到服务器上架和配置、故障处理,都得亲自上阵。尽管没日没夜、兢兢业业地忙碌,却还是免不了出各种状况。Tom原来的老板是科技部总经理,搞软件出身,对业务开发非常关注,但对运维却不太重视,总觉得运维就是简单重复的事情,没有太多价值。因此,老板在Tom团队的人员编制上卡得很紧,又不让请外包。Tom就经常捉襟见肘,疲于应付。终于有一天,积重难返,各种问题集中爆发。一方面,工作量大得让他们晕头转向;另一方面,他们因为疲于应付满足业务的需求,疏于质量流程管理,机房掉了一次电,影响了业务连续性。因此,他们部门被业务投诉,被领导“修理”。Tom感觉再也坚持不下去了。他想改变,立即改变,一刻也不要等!
  人生最幸福的事情,莫过于:你想睡觉时,刚好有人送来一个松软的枕头,还有一个温暖的被窝。这天晚上,已经很晚了,Tom没有收到枕头,却收到了一条微信。发微信的人是Peter。
  Tom是去年在一次研讨会上认识的Peter。Peter是数据中心的前辈,当时正在负责一个大型绿色数据中心的规划,讲起PPT来两眼放光、口若悬河,号称他正在设计的数据中心是国内领先,国际也领先。Tom在下面听着,对Peter先生的敬仰如滔滔江水连绵不绝。休息时赶紧主动递了张名片,聊了一会儿,越发地佩服这位言谈中时不时带着几个英文单词的专家。而Peter也很欣赏有着丰富一线经验的Tom。两人聊得甚是投机,加了微信,常有联系。却说Peter在IT和通信行业干了十多年了。国企干过,外企也干过,最大的优点就是英语好,还爱学习,肯钻研,知识面特别广。所以,行业里每次有啥新浪潮,他总是弄潮儿。虽然Peter是做IT出身的,但自从美国人开始聊绿色数据中心、PUE啥的,他就开始在国内发表文章,纵论绿色数据中心设施的各种趋势。所以,各家办研讨会也经常请他去给露个脸、讲个话,因此Peter也在行业里积累了不少粉丝。有一天,他所在的单位要建一个新数据中心,英语好又懂数据中心的Peter就陪着领导去美国溜达了一圈。在回国的路上,领导语重心长地对Peter说:“我们的目标是要建设一个二十年不落后的数据中心,这件事就交给你了!”
  ……

前言/序言

序1中国联通云数据公司总经理焦刚

当前,互联网+的浪潮势不可挡,大数据时代大幕来临,云计算产业迎来黄金发展期,云数据中心已成为国家战略性、基础性的信息基础设施。“十三五”规划明确提出要实施“网络强国”战略及“互联网+”行动计划,大力推动各行各业购买云计算服务,使云计算产业达到了前所未有的战略高度。以云计算、大数据、物联网等新型技术为代表的新兴产业,将有效推动国家产业整体转型升级和结构性调整,实现信息通信业万亿元产值再造,对中国占领新一轮全球IT制高点具有战略意义。

以智能终端、智能家居、互联网应用为代表的移动互联网正处于爆发期,以智慧政务、智慧交通、智慧医疗、智慧教育、智慧旅游等智慧城市应用正在全面实施,以虚拟现实、人工智能、机器人等为代表的智能产业正在加速进入商用和实用阶段,这些新技术、新业务、新应用每天都在产生海量数据,都需要云计算的全面支撑。云数据中心的基础性、安全性支撑作用会更加凸显。

云计算产业的迅猛崛起,深刻影响着新一代云数据中心的建设模式和运维模式,对设计理念、建设标准、交付速度、网络结构、业务持续性、安全性可靠性、节能环保等提出了全新挑战。三联供、工厂预制组件、微模块等建设模式深刻变革;风幕制冷、冷门背板、高压直流等绿色技术层出不穷;服务器定制化深入推进。传统的IDC业务加速云化,SDN/NFV技术将改变传统的网络结构,更方便实现“云网一体”,降低建设成本、提高运维效率,提升网络柔性可变和安全的能力。

运维是云数据中心生命周期中最后一个、也是历时最长的一个阶段,涉及基础设施的可用性、配置管理的有效性、IT设备的可用性、人员操作的熟练程度、风险的管控程度等多个方面,是能否提供安全可靠、高效和低成本运营的关键。因此,建立一套满足客户和适应市场需求的国际一流的运维生产体系,需要统一完整的运维服务模型,先进又实用的运维体系,一体化集约化标准化的运维生产流程和规程;需要适用先进的质量管理体系和运维方法理论,培养和造就专业化的运维团队等。

不积跬步,无以至千里;不积小流,无以成江海。当下,程小丹先生聚合产业链之力,诞生了《数据中心设施运维管理指南》这样一本先进、实用、生动,即“高大上”又“接地气”的技术书籍,既可作为窗前读物,亦可作为培训教材。如同一杯清茶,让工程师和管理者们小憩一下,回味悠长。

2016年1月于京

序2招商银行数据中心总经理高旭磊

云计算、移动互联网、大数据这些新业务模式和新技术正在给传统金融企业带来空前的机遇和挑战。只有主动拥抱这些变革,积极地引领行业创新才能将IT技术、服务管理变为我们重要的竞争力。而数据中心是所有IT系统的重要底层支撑,其可靠运行则是管理的焦点。

只有每个投入到数据中心建设和运维的人员才会体会到支撑一个全国性数据中心的个中滋味。随着业务越来越集中在企业核心数据中心,IT风险也高度集中,按照中心极限定理,不难得出当N个小数据中心集中成一个大型数据中心的时候,以标准差来衡量,风险增长了倍。任意一个微小的失误都会造成全局性的影响,要克服风险成倍的增长,唯一的出路就是让管理水平也成倍的增长,让技术能力也成倍的增长,让人员技能也成倍的增长。只有在人、技术、流程、资源、政策、文化、领导等方方面面都做到最好,才可能在缓释无处不在的风险的同时,让业务享受到前所未有的迅捷,让客户感受到无与伦比的体验。

作为数据中心工作者,数据中心是我们每个人的“孩子”,一个调皮的“孩子”,我们对她爱恨交加,却又执迷不悔,为她献出了自己的智慧、汗水和历历在目的无眠之夜。多少个夜里,笔者和同事们坐在冰冷的机房地板上,听着服务器风扇呼啸沉吟,我知道那是渴望起飞的声音,是每个数据中心人内心的呼唤。回首我们留在这伤心之地,却又渐渐逝去的年华,笔者常常莫名其妙地想起了一句台词:爱对了是爱情,爱错了是青春。

走过这些年,无数本《指南》《大全》伴随着我们的足迹,开启着我们的智慧,其中的精华融入我们血液,成为我们灵与肉的组成。我相信这部《从运维菜鸟到大咖,你还有多远》也将是其中的一本。它的定位非常独特,虽不是数据中心运维管理的百科《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》,不能包治百病,但也是荟萃了数据中心众多运维行家经验的血泪之谈,这《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》结合了运维人手记和设备运维指南,不枯燥,不教条,尤其是运维人手记让人身临其境。我和我的伙伴很高兴参与其中部分的写作。如果这《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》能够让从事运维行业工作的读者在读完后少犯一个错误,就善莫大焉了。

序3张炳华开放数据中心委员会(ODCC)主席、数据中心联盟(DCA)副理事长、百度系统部副总监

互联网从最初Web1.0、2.0应用,逐渐演进到云计算、大数据时代,进而全面迈向互联网+的万物互联时代,数据中心作为互联网的关键基础设施和物理承载体,逐渐从成本中心演变为服务中心,从支撑业务到驱动业务发展,并成为业务创新的加速器。

作为一家互联网公司,百度业务的高速成长,高度依赖于高可靠、高效率、高质量的数据中心基础设施。新的时代带来了新的契机,也对数据中心提出了更高的要求。短短几年,服务器规模从几百台迅速扩展到数十万台;机架功率密度从几安培、十几安培增加到几十安培;数据中心从建筑单体扩展到城市、建成多个数据中心集群;传输系统从专线租用到自建传输骨干,带宽从M级扩容到T级;这些变化,不断考验着我们数据中心规划建设、供电及冷却能力、业务整合和流量调度能力……而要保证所有业务和应用安全、稳定、高效地运行,最终考验的是数据中心团队运维及管理能力。随着互联网+渗透到各行各业,数据中心的规模越来越大,系统越来越复杂,数据中心安全运行面临越来越多的挑战:

规模爆发增长,但人才储备不足,行业运维人才短缺。

子系统众多,系统很复杂,标准化程度不高,管理难度大。

自动化、平台化及智能化程度不足,人为故障因素占比高。

行业竞争激烈,设备质量下降,能耗普遍高,成本压力大。

我本人在数据中心行业从业十多年,从事过规划设计、技术研发、建设交付、运维管理,深深体会到数据中心全生命周期是一个系统工程,任一环节的疏漏最后都需要运维环节来弥补,否则就会给业务带来极大的安全隐患。在数据中心整个生命周期里,运维阶段的责任是重中之重。设计可用性99.99%的数据中心,运维不当也许只有99.9%的稳定性;相反,设计可用性99.9%的数据中心,通过精细化运营和管理可以做到99.99%的稳定性。

百度很早就意识到数据中心设施运维管理的重要性,我们的M1数据中心是国内第一家通过UptimeM&O认证的数据中心。我们清醒地认识到,数据中心运维管理绝非易事,需要主动积极地寻找更有效的方式来不断优化,我们创立并运用可用性及健康度评估模型来提升服务稳定性;同时,我们也深刻认识到,做好运维,需要整个行业更多的交流和互相学习。我本人参与开放数据中心委员会(ODCC),是希望打造活跃、高效、具有国际竞争力的数据中心生态圈和开放平台,通过开放、协作、创新、共赢的方式促进行业合作、产业创新和新技术应用。我们也非常鼓励行业里更多的技术交流和经验共享。

训练有素的数据中心运维团队是保障互联网业务快速发展必不可少的核心力量。随着大数据、人工智能的在数据中心系统的应用,数据中心逐渐向自动化、智能化和面向无人值守的数据中心方向演进,对运维水平和管理能力提出了更高层次的要求。

《数据中心设施运维管理指南》汇集了国内领先的数据中心运行企业,以运维人手记的方式,分享运维人自己一手的经验和教训。“他山之石,可以攻玉”,我认为这有助于运维人员从别人的教训中吸取经验,减少自己犯错的概率,是非常有意义的。百度公司也很高兴能在其中分享我们的些许经验。

行业的运维专家们把踩过的坑、成功的应对经验分享出来,是希望能提升国内数据中心行业的整体运维管理水平,改变重建设、轻运维的不良现象。我期待这《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》会带动行业里更多的经验分享,让中国的数据中心运维水平达到新的高度。

前言北京中科仙络咨询服务有限公司董事长程小丹

数据中心设施运维,经常被与数据中心IT系统运维混为一谈。实际上,两者的工作虽然都以保证IT系统的可用性为最终目标,但在工作对象上,却是截然不同的。IT运维本质上是和比特(Byte)打交道,设施运维则主要和瓦特(Watt)打交道。

工作对象的不同,决定了工作方式也不可能完全一样。鉴于机电系统的复杂性,数据中心设施运维更像是一门经验性的学科。所谓经验性学科,就是很难坐在计算机前,靠科学计算就能找到所有的解决方案。传统的设施运维更多地依赖于久病成医,即犯了足够的错误以后,就可以把运维做得好些了。

当然,如果大家都愿意把自己犯的错误共享出来,就可以让整个行业受益,毕竟,不是所以的雷都需要靠自己趟出来的。但是,要让行业的从业者分享自己经历过的事故是很难的,因为每位数据中心的领导都希望外部认为自己的运行是完美无缺的。所以,我们很少看到对于一个数据中心事故的深度分析,更多地是看到莺歌燕舞的正面报道。

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》首次突破这一行业习惯,这是第一部由行业运维精英们共同分享的真实运维经历,其中记录了很多成功经验,更多的是挫折和教训的反思,以及惊心动魄的数据中心火灾过程。这种第一手的经验,是很难通过传统的教科书获得的。

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》还是第一部以小说体写就的运维经理人手记。当我们决定一起写这《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》时,大家都希望写一本能够让读者有阅读乐趣的书。记得多年之前看过一《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》叫做“一分钟经理人”,这《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》与其他的管理书相比较,最大的特点就是有很强的可阅读性。为什么数据中心运维不可以有点乐趣呢?所以,《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》第一部分以小说体的方式,来讲述运维经理和运维工程师在数据中心运维过程中可能会经历的一些事情和过程。我们设置了两个人物:Tom和Peter在这两个人物身上,可以看到所有运维人的影子。当然,应该给他们这么洋的名字,还是更加本土化的“小明”和“小军”呢,这个我们写作组也有争论,但我们最终还是觉得小学学数学的时候,已经受够了小明和小军了,所以还是选择了Tom和Peter。

华为的喻茂萍总主动担纲第一章节的写作,并且很快就写出了既充满专业知识又具满满人文情怀的第一章节,为整个第一部分的文风定了调。来自招商银行、中国联通、中国移动、中国电信等二十多家数据中心的其他专家们也都奉献了自己宝贵的运维经验和感悟。我发觉,平日里非常严谨的理工男女们,其实都有一颗文学青年的心。

从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》第二部分是请数据中心核心设备供应商从他们的角度来讲述数据中心中主要设备在运维过程中需要注意的要点。我们给出的场景设定如下:如果你交付你的设备给运维团队,你希望给他们什么样的建议来更好地运维,以保持你的设备最佳的运行状态,并延长设备的生命周期。非常感谢伊顿、施耐德、中达、康明斯、南都等设备厂商的领导们可以站在用户角度看问题,重视设备的运维,积极参与《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》的写作。来自工商银行的李崇辉老师和德拓天全的曹洁老师负责第二部分的总体编审,做了大量的工作。浙江电信的叶明哲老师贡献了水冷空调的维护指南。

还要特地感谢排版编辑王彤,文字汇总编辑闵谦,插画作者顾众,是你们的辛勤付出,使得《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》的质量得到极大的提升。最后要感谢我太太及两位女儿给予我牵头组织写作《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》的精神支持。因为看到女儿们都各自出了书,背后还有我太太作为编辑给予支持,我才有信心开始启动这《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》的写作工作。

数据中心运维是一项非常关键但又枯燥、重复性很高的工作。在我们接触过的运维团队中,见过不断挑战自我,追求精进的主动性运维组织;也见过把运维看做出了问题再进行修补的被动性运维组织。从短期来看,两种工作方式的结果并无大的不同;但从长期来看,我们相信主动性组织一定会取得更加高可用、高效率的运维结果。希望《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》有助于让数据中心高层管理者更加重视运维,也希望数据中心运维的执行者能够从同业者的经验教训中获得一些收益。


其他推荐