随着互联网的发展,数据除非出现一个革命性的技术创新,不然以目前的趋势来看,数据中心肯定会越建越多,数据中心的建设周期大概是几个月到两年中间,但里面往往会运行很多年,所以从这个方面来说,数据中心肯定是需要慢慢的变多的从业人员,但现在基础设施运维市场上并没再次出现那种垄断性的企业,说在这一个市场中的占有率是多少的那种,基本上处于百家争鸣,行业也不是非常规范的阶段,所以总体上来说,对于从业来说还是一个比较好的时期,如果在一个发展相对来说还是比较快的企业,能够得到很好的发展。
到目前为止,在数据中心运维部工作一年,我的工作主要是协助部门总监处理一些事务性的工作,以这一年的情况来说,数据中心是很多投资者、政府官员中的高新技术企业,无论是投资还是政府的政绩,拿出去说都是很有噱头的,所以总体上来说我们公司发展得很快。投简历的时候也是看到互联网数据中心这个概念的时候瞬间觉得无比高大上,再加上公司HR的一顿洗脑,简直觉得这是个无比朝阳的朝阳行业,号称要成为互联网行业的水和电,为所有的网络公司提供基础架构支持。
下面说一下我们公司是干嘛的,主要的主体业务是提供数据中心基础设施的咨询、规划、设计、建设、验证、全生命周期的运维,我们的机房有自有机房,也就是自己投资建设的,主要靠租赁给客户或者卖给其他公司盈利,还有给其他公司的机房提供运维外包服务,也就是靠服务收费。
我是在运维部里,做数据中心的基础设施运维工作,那什么是数据中心的基础设施呢,简单的说就是强弱电、暖通、安防这三个方面,基础设施是不含IT设备的,也就是客户服务器、存储、交换机等,等不管里面的网络传输了,什么后台大数据啊,各种数据存储、处理啊,和我们都没啥关系。根据工作性质,在机房工作的人员按工作专业大致上可以分为:电气、暖通、弱电、安防这几个专业,从职级上来看,分为:总监、经理、主管、工程师、助理工程师、技术员等,从工作内容来看又分为:值班人员、维护人员、管理人员,具体安排多少人根据具体机房的大小和设备的数量,值班人需要7x24值班,也就是说需要上夜班,还是比较辛苦的。
值班,每个数据中心都有一套动环系统,这套监控系统监控着数据中心里所有的设备,采集成千上万个点,比如电压、电流、频率、PUU、功率、温湿度等各种信息都可以从这个系统中读出,而且每个参数都设定有一定的范围,超过这个范围值系统就会告警,屏幕相应位置会闪烁,且有语音提示,这是值班的人就需要对相应的问题进行现场处理,因为对每个故障都有处理的时限,因此值班人需要对位置做快速定位,所以要求值班人员对机房的所有设备的位置很熟悉才行。
日常的巡检,就是对不同的设备有不同的巡检频率要求,巡检就是拿着巡检记录本去机房进行巡查,有点类似于大王派我来巡山的感觉,对有问题的点做处理,然后记录在案。
设备维护保养,每个机房都列有详细的设备维护保养计划,具体到每天做什么,对哪些设备具体做什么具体的维护保养,这个维护周期都是以月为单位的,不断的周期循环。
演练,演练的目的是为了更好的提高大家对应急情况的解决能力,我们的演练包含了各种故障情况,比如断电、断水、设备故障、防恐、防洪、防台风等,演练主要是模拟真实应急状况发生,我们依据现有的应急预案能够完美的应对当时的情况,为完成这个演练我们应该准备很多资料,比如演练计划、演练方案、应急预案、演练报告等,每次演练前都会进行各种部署,事后进行总结反思。
故障处理,机房设备很多,难免会出现一些故障,这时就需要有经验的工程师去现场处理问题,我们大体上分为一线工程师,二线专家,在一线工程师没有办法解决问题的时候,向二线专家寻求帮助,如果二线专家也搞不定,就只能向设备厂家寻求帮助了。
以上这些都是机房运行一些最基本的工作,是保证机房运行的最基本的要求,除了这些还有很多事务性的工作,比如和客户沟通、节能减排、其他一些专项工作等,总体上来说,运维的工作并不是技术性很强的工作,但涉及的面较多,而且容不得有一点失误,不光是为了业务中不中断,里面的高压电也很危险,所以要非常规范的流程来减少大家的失误,提高我们的工作效率和满足较高的要求。
因此运维应该是在熟悉设备的前提下,熟悉所有的流程,能够按照规范来开展工作的这么一种工作。
我来答答题:数据中心运维可大致分为两大类,其一是基础设施运维,其二是基础环境运维(IaaS类)下文逐步分解:一、基础设施运维:1.1机房管理方面:1.1.1机房人员出入管理(管理工具如:出入人员管理流程含出入申请审批等)1.1.2机房设备出入管理(管理工具如:设备出入申请,设备双电要求最重要的是机房设备台账)1.1.3机房承重(经过控制入室设备重量能够更好的降低承重风险)1.1.4机房环境温、湿管理(通过巡检记录加以管理)1.1.5机房电力管理(通过巡检记录加以管理)
1.1.6机房的监控管理(通过进出机房人员的数量与1.1.1章节内的人员出入做比对)
1.1.7机房线缆管理即网线(含存储线等)、光纤和电源线管理(其内容主要围绕着横平竖直,捆扎带松紧,电源线长度预留等)
执行以上内容的人员素质不需要很高,但是,注意,管理以上执行者的领导(领队、带头人)在选择时至关重要。
在关于机房基础设施的内容中往往会出现对基础设施的变更的操作,如,因业务需求在机房内放置了超过机房设计时规定的功率的设备,这样一个时间段就需要协调机房方面对机房相关区域进行基础环境改造的工作,在改造完毕后设备进入运行过程中,一定要时时关注设备的运作时的状态,特别是注意设备正常运行的温度,我在工作中就出现过因为“认为环境变更完毕后”就可以完全放心使用的情况,结果出现设备温度高导致的一系列的联动反应。
在工作执行中,本着不需要执行者“动脑”作为工作原则,即,制作完美的SOP,完整的交接班制度和可落地的工作流程及问题处理流程即可驱动,在此需要明示的是,注意执行者本人的工作素质,在项目中不要过于放手,要建立阶梯式管理机制(即,一个人最多管7七个人)必要时,或者成本能控制时,能够使用一班两岗的工作模式,避免因为人员失误导致错误操作和漏报的情况,特别是在处理服务请求中的更换硬盘、内存、电源等等工作
1.2机房容灾方面制定机房应急预案,其中重点包括但不限于,空调故障时应急预案,单路电力故障时应急预案,环境温湿度高时应急预案等二、基础环境运维:基础环境运维实际可大致分为周期性工作和非周期性工作,指导思想来自ITSM(itil)名词解释:周期性工作服务请求事件处理变更管理问题-风险跟踪记录
2.1 周期性工作所谓的周期性工作,指的是周期的、重复的工作,比如:配置备份、账户回顾、配置回顾、更新各类系统的操作手册等等。别小看周期性的工作,其实它是运维工作权值较高的工作内容,怎么将周期性的工作合理而有效的运转起来呢?我们工作中将周期性工作纳入运维日历,将重复性的工作条带化规范化,通过制作SOP,检查SOP执行情况,执行团队反馈SOP使用情况,跟进SOP优化情况,进行周期性的、重复性工作的执行指导。 ----以上内容不知道有没有说透,要是没有请留言。
2.2非周期性工作(主要含服务请求、事件处理、变更管理、问题-风险跟踪记录)
本章节内容,主要围绕着流程、SOP、PDCA进行展开,那么咱们现在需要名词定义
定义,服务请求、事件处理、变更管理,问题-风险跟踪记录,如果学习或了解过ITSM的工程师对以上的名字并不陌生,我也是,我认真的学习过上面的内容,我的同事、朋友也学习过,但是我们在针对以上名词进行探讨的时候却发生了很大的奇异,所谓的奇异就是我们各自理解的不一致,而且这个现象困扰了我们很久,举个例子,领导让我在AD上创建一个账号,让我来做时,这个操作其实是很简单的,但是我应该走什么流程呢?
“执行者不需要动脑子”,通过这句话我恍然顿悟了,边界不清那么咱们就定义边界,怎么定义呢,这时候就引入了工作分类表,就是说,将运维工作量化,制作服务请求分类表,事件分类表,变更分类表,然后按照机房管理的内容照章工作即可----以上内容不知道有没有说透,要是没有请留言。
上面的内容,如果搜索ITSM或者ITIL都会有非常多的内容,而且内容相对是便于理解的,但是,咱们在此需要认真的讨论什么ITIL到底对我们来讲带来了啥好处,他的介入对运维工作来讲解决了什么问题?
以上工作其实都是基础性的工作,通常来说,招聘一般的工程师就可完成,但是领导(牵头人,主管)需要懂以上工作并且有较高的工作上的能力和协调能力。
运维工作远远不止以上内容,而且,我一直认为,运维工作与项目工作是不相伯仲的(之前有很长一段时间是看不上运维工作的),而且,能干高级运维经理的人一定能干高级的项目经理,但是反过来就不一定可以了
我是做数据中心建设的,但是也客串过几个月的运维(交接期)其实我一直觉得数据中心运维还是大有可为的。日常的那些日志、安全、备份、基础设施监控这么多东西我觉得都可以交给系统做,上套监控就都有了。工程师在数据中心的运维更多的是要考虑优化方面的内容。举几个栗子:
1、数据中心供电的弱点在哪里,啥状况会导致停电,基础供电设备的故障会影响那些系统,这些系统是怎么备份的、要怎么恢复,恢复窗口有长,各系统人员各公司人员要如何就位。
2、新进设备如果放置,怎么规避热点的形成,怎么将硬件设备分布放置,最好能够降低单点故障的威胁。
3、数据流如何优化,怎么样才可以将无关流量从核心系统中剥离,怎么来降低核心网络设备的压力。
通常来看,数据中心的运维分了场地和关键任务,IT基础设施两个大的方面。当然,现在两个层面的耦合也是越来越紧密,所以也可以看成一个有机整体。就个人的经验来看,你已经有了服务器的运维经验,那就能着重加强一下场地和基础设施方面的理解。
这两个层面都可以用SLA来衡量,以持续优化来进行改进,目的都是提高数据中心整体的可用性,切记,这一点能够说是最重要的关键!可用性的保障,分解到不同的子系统,就是很复杂的一套指导你怎么样做运维的工作说明书了,希望对您有帮助!
对于数据中心感兴趣的小伙伴可以借鉴一下本篇关于数据中心运维岗位的科普,本期请到的嘉宾是在数据中心工作的楠哥,来介绍基础设施运维的相关工作。
楠哥,目前在某数据中心从事乙方运维岗工作,18年本科毕业后就一直在现在的公司,从基础运维做起,干了快4年,目前是专业主管(暖通)的职级。
简单来说就是看机房设备的,保障数据中心中的系统设备正常运行,业务能够顺利开展。很多甲方数据中心其实都没有自己的运维团队,而做具体工作的都是外包单位。
甲方单位采取招投标的形式,来招募专业运维公司对数据中心进行具体运维工作,而我做的工作就是外包身份对数据中心进行具体的运维,纯纯的乙方。
数据中心基础运维的系统最重要的包含:电气配电系统、空调系统、消防联动控制系统、弱电系统、监控系统等...
简单来说就是确保数据中心正常运行,尤其是发生各类事故故障后,能确保业务平稳进行,不受干扰。
,包括维护计划、维护实施、设备维修等。资深一线工程师:具体去操作事情,包括但不限于设备维护、维修。
基础运维:值班巡检、日常维护、应急处理(切备机)、随工、简单故障维修,及相关事务的汇报。
技术运维:日常维护、应急处理、简单故障维修、机柜上下电等(技术量更多一些)。
3)关于晋升时间一般来说(本科学历为例,晋升跟学历还是比较相关的),从基础运维到资深1-2年;资深到二线年左右,要看机遇和能力。
但晋升其实是看机遇,能不能抓住一些机会,这个说起来就比较玄学了,本科毕业干了快4年已经是专业主管了,这种就比较快了>
主要是管理类的工作:沟通管理、流程处理、应急保障、人员培训、报告输出、向外对接、采购、供应商等。具体技术类的工作就是我手下来做啦
一般来说运维岗对于学历相对要求会低一些,学历范围也会比较广,一些基础运维值班员的岗位高中学历以上就可以做,一般要求就是中专、大专及以上,本科学历一样也会招聘。
,学历越高晋升相对会快一些(不过也看你个人机遇能力了),有些运维公司也会校招招聘一些研究生或者是知名学校的本科生,就会从管理岗的方向来培养,虽然运维岗什么学历的人都有,不过
。包括社招的一些小伙伴,如果之前有一些相关经验,应聘公司也可能从专业工程师的方向培养,之后再一点点晋升到管理岗的层面。a