数据中心是一个拥有诸多系统的复杂机构,要让数据中心高效安全地运转起来,需要有一支技术实力雄厚的运维队伍。虽然,这几年总有人提出要建设无人值守的数据中心,建设自动化运维的系统,以降低人力成本,尽力去提升个人运维的工作效率,在实际应用中,仍不能完全行得通。没有人参与运维和管理的数据中心将是一盘散沙,根本形不成战斗力。降低人力成本是数据中心长期坚持的目标,但眼前还是需要大量的技术人员,在数据中心里形成人机交互的融合体。而且,在数据中心建设TIA-942标准中也明确提出人员的配置情况,不同级别的数据中心要求匹配的人员数量不一,等级越高对人员数量和技能水平要求越高。
如图1所示,TIA-942将数据中心分为四级,其中T1级别最低,T4级别最高,级别越高匹配的人员能力要求越高,同时值守时间也最长,T4往往要求全年数据中心无业务中断,对运维的要求非常高,必须安排专业技术的人员现场24小时值守,以便在出现问题时,及时排除,或者能立即切换到备份系统上,让业务不受影响。
图1:不同等级数据中心人员配置要求
在人员的组织架构设计上,可以将数据中心分为三大块,每个部分再细分,建设完善的运维系统,一般是这样,如图2所示:
图2:数据中心运维组织架构图
根据图2所列的数据中心运维的组织架构,显然对于一个大型数据中心13~15人是最基本的配置,如果考虑到7*24小时轮换值班(个别岗位),人员配置至少要25人。像保安和保洁人员,偌大的数据中心只配置一两个人肯定不够,大型数据中心的面积都要上万平方米,这个大建筑面积的保洁工作,至少也要十来个人才行。还有IT系统部分,网络和服务器、存储这些都是相关性比较少的专业技术,一个人不可能都掌握,就需要这些方面的人才都要储备一些。还有很多的数据中心是建在全国各地的,如果在全国各地的数据中心都建设图2这一套运维组织,人力成本太高,所以很多的数据中心也是将IT系统部的所有专业技术人员集中到总部办公,对各地的数据中心实施远程管理。在数据中心机房现场,只需要留有少量的驻场人员,这些人员只需要会拔插网线,会重启和安装设备就可以,平日的监控也主要由这些驻场人员来完成,一旦发现问题及时通知IT系统部的人员上来定位和分析。
基础设施部和行政部与数据中心机房休戚相关,在各地的数据中心都需要建立一套。其实,现在绝大部分的数据中心都是租用运营商或者专业的数据中心服务商提供的机房,像供电、电气、空调、监控、安保和保洁都是由运营商来完成,数据中心只要向运营商提供租金即可,这样可以节省很大一部分人力费用,数据中心运维只需要有IT系统部就可以了。如果像腾讯、阿里这样的互联网巨头,单独建设了自己的数据中心,就需要有基础设施部和行政管理部,当然如果图省事,也可以将这两个部分运维的工作都外包出去,由专业的服务商来完成,这样也要比自己维护两个部门要节省得多。
除了设计组织架构,还要制定详细的部门工作内容,各个工作岗位的职位要求,细化到具体工作上,部门主管可以根据每个人的工作表现,进行考评和涨薪。要建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期,通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等,这些管理要靠各种流程来约束,大家按照流程办事和工作。流程是数据中心运维架构质量的保证,流程存在的目的就是保证运维架构可以按质、按量地运行。
人员是数据中心运维的基础,也是数据中心的运维核心。一个好的数据中心运维组织架构,少不了合适的技术和管理人员。人是数据中心运行好坏的最为关键因素,有句成语说得好:“成也萧何,败也萧何”,要知道数据中心中发生的故障百分之八十是人为故障,而人又是处理这些故障的关键部分,需要大量的人力去保证数据中心稳定运行。所以,人与数据中心的关系很微妙,既不能让数据中心完全依赖于人,又不能让数据中心完全脱离人的管理,要在两者之间达到平衡。人干预过多,容易引起人为故障,人干预过少,数据中心系统就容易跑偏,也许有设备都烧掉了,人们都还不知道,这样的数据中心运维就是失败的。
转载请注明:IT运维空间 » 运维技术 » 数据中心运维的组织架构设计漫谈
发表评论