• 经典方案
关键词
适用行业
附件
数据中心机房工程运维管理实施方案

第1章机房工程的管理技术制度与要求

管理是为了实现预期的目标进行的协调活动。为确保机房安全运转、工作有序开展、设备正常使用,机房需要制定管理规章制度。

机房管理就是对制定的规章制度执行、检查和改进。执行就是按照制定的规章制度去实施;检查就是将执行的过程或结果与规章制度进行对比,总结出经验,找出差距;改进是通过检查总结出的经验,将经验转变为长效机制或新的规定,针对检查发现的问题进行纠正,制定纠正、预防措施。

随着云计算的发展,机房规模急剧扩大(大、中型机房通常是指面积数千至数万平方米)、机房数量不断增加,由小规模、封闭式、单一功能向大规模、开放式、多功能方向发展,机房管理更为重要。机房管理水平的高低也直接影响着机房的使用率和使用寿命,机房管理应引起机房管理人员的高度重视。

1.1机房管理科长和管理人员的岗位职责

1.1.1机房管理科长岗位职责

机房管理科长(组长、主管领导或经理)是中心领导管理好机房日常运维工作的得力助手和参谋。机房管理是管理科长日常工作的全职岗位,对于机房管理科长来说,机房管理是为了使机房设备正常运转,保障机房有良好的运行环境和工作环境。机房管理科长的岗位职责要重点注意如下内容:

1)严格制度。机房管理是一项看得见、摸得着的实际工作,面对诸多因素和关系,必须“严”字当头。机房日常管理应根据实际需要,抓常规管理。建立、健全计算机机房的各项规章制度是机房管理工作的前提。制定相应的机房管理制度,使日常管理工作做到有章可循,有据可依。

2)严格管理。作为部门领导一定要有从严管理的指导思想,要严格管理、严格要求,并使这种严格思想贯彻落实到管理工作的全过程,在实际工作中要常讲、常查,要不怕得罪人,必要时还要制定各种奖惩措施。

3)做好日常运维和巡检工作,包括配电、空调、消防等设施的检查工作。

4)不断学习。机房管理牵涉面广,事务又多,是一项专业性强、“繁”、“杂”、“难”、“累”的工作,具有一定的不可预见性,且不同程度地存在技术难度。目前国内许多报刊杂志包括互联网络中,有关机房管理的介绍层出不穷,机房管理科长需要有责任心和不断学习的进取心。机房管理科长除了要掌握丰富的计算机软硬件知识和具有较强的动手能力外,还需要掌握一定的设备管理技巧,学习各种设备如配电系统、地线系统、空调、防火设备、UPS等的正确操作方法,从而杜绝因操作不当造成的人为事故。不断学习,总结经验,取长补短,才能做好机房管理工作。

5)做好机房的防火、防盗及供电系统、空调系统、通风系统的安全和日常养护工作,提高安全意识。定期检查安全设施情况,并做好记录,发现问题立即整改。

6)定期检修,重视完善。机房以及有关设备也有老化、更新、修复等问题,除进行日常的检修外,还应对机房建设时存在的缺陷,机件的磨损、老化,紧固件的松动,装修变形等问题定期检修、更改或完善。坚持每年定期对机房整修一次,即检测安全防火设备、检修空调设备、除尘、玻璃隔断调整加固、照明设备检修、安全防盗、协调相关设备维修人员进行维修,安排好相关维修工作。

7)对于发生的故障与事故及时逐级上报,并做协调工作,做好故障与事故的记录工作,做好问题的分析和跟进处理工作。

8)完善电气系统设备技术档案和资料,建立相关管理制度、操作规程、应急预案等。

9)在制度化管理上下功夫,组织、指导、制定年度工作计划和各种操作规程、管理规定、岗位职责和安全责任制等,并监督落实,以实现科学、有序、安全的管理。

10)机房不能出现事故,加强巡视巡检。要管理好机房不是一件容易的事情在条件许可的情况下,应建立经济合理的易损件、易耗件的备用库,保证及时更换,定期更换。对设备的运行情况进行分析,制定预防和常用解决方案,从而保证机房的正常运转。

11)严格机房钥匙管理,机房钥匙只允许管理人员配带。

1.1.2机房管理科长的“三心”

机房管理科长的三心即责任心、学习心、宽容心。

1.责任心

责任心主要有如下内容:

(1)安全管理

机房安全是第一位的,可以说是机房管理体系的灵魂。威胁机房安全的因素主要有火灾、设备故障、病毒。机房安全管理就是告诉人们,在进行机房管理的同时,通过采用计划、组织、技术等手段,依据机房、环境因素的运动规律,采取控制措施,预防事故的发生。

(2)六个坚持

六个坚持是指:

1)坚持管机房同时管安全;

2)坚持按操作规程管理机房;

3)坚持预防为主;

4)坚持全员管理;

5)坚持设备维护;

6)坚持日常巡检工作。

(3)四不放过

四不放过是指在调查处理机房事故时:

1)必须坚持事故原因分析不清不放过;

2)员工及事故责任人受不到教育不放过;

3)事故隐患不整改不放过;

4)事故责任人不处理不放过。

(4)文明管理

文明管理是指在管理时:

1)具有文明的措施(机房的各项规章制度);

2)建立管理组织,明确岗位职责,健全管理制度(培训教育、检查、奖惩、卫生等专项管理制度);

3)进行现场管理。

2.学习心

科长的大部分时间是做机房管理的实际工作。他要不断地学习各种设备的正确操作方法和管理方法,管理的思维方式与知识结构要紧跟时代的步伐,并在技术上与项目一起成长。只有这样才能让科长提高领导能力,在管理工作中伸展自如、张弛有度。

3.宽容心

科长要有宽容的心态,特别是对比较年轻的员工。现在的员工都比较年轻,没有社会的阅历,自我为中心的意识强、自尊心强,有时候会做出一些过分的行为。当员工做了错事或工作中出现差错时,不要谴责,不要去追究责任。作为科长,应该多花一些精力去关心员工,多给予理解,做到“宰相肚里能撑船”,了解事情的起因,避免将来再犯错。

年轻员工有自己的长处和短处,要经常表扬他的长处,求同存异,具有一颗宽容的心。

1.1.3管理人员岗位职责

机房日常运行、维护是管理人员的全职工作岗位。管理人员的岗位职责需要重点注意如下内容:

1)负责机房电气系统的运行、维护、保养、管理工作。

2)认真贯彻落实岗位责任制,遵守各项规章制度,严格执行操作规程和员工守则。严格执行机房值班制度,做好值班记录;严格执行机房设备使用登记制度,做好设备登记工作。

3)熟悉设备操作规程,熟悉仪器仪表使用方法。熟悉、掌握设备的原理、布置、控制、设备性能、使用状况及运维操作。维护工作应遵循设备故障与维修的操作步骤、基本原则和维修方法进行。机房应备有设备所用的各种零配件,供维修使用。

4)服从领导的调度和工作安排,按时、按质、按量地完成任务,不擅自离岗和串岗,禁止在上班时间炒股、浏览无关新闻、网上游戏、看在线电影、听音乐等。

5)努力学习,不断提高思想素质和业务技术水平,全面熟悉管辖范围内的各种操作规程,提高工作效率、质量。

6)认真填写原始记录,分析设备运行情况,并掌握其规律,发现问题及时解决,准确无误地填制各种报表和表格。

7)勤巡查,发现问题及时向管理科长汇报,听取指示。

8)参与并协助设备的维护和保养工作。设备发生故障及时组织检修,发现隐患及时组织处理,做好技术把关工作,保证所管辖系统设备处于优良的技术状态。做到“三干净”(设备干净、机房干净、工作场地干净)、“四不漏”(不漏电、不漏油、不漏气、不漏水)、“五良好”(使用性能良好、密封良好、润滑良好、紧固良好、调整良好)。

9)发扬主人翁精神,开动脑筋,大胆提出合理化建议。

10)做好本班设备的年月检修保养计划和备品备件计划,报主管审核。

1.2机房内管理的内容

1.2.1制定机房管理的规章制度

建立健全计算机机房各项规章制度是做好机房管理的关键。在机房日常管理工作中应根据系统的具体情况、工作性质,制定出一套完善的机房管理规章制度,以保证机房正常运行。规章制度用来规范机房的管理,是机房管理的标准。规章制度要通过日常工作中对它的执行来体现和完善。机房管理制度一般包括:管理科长岗位负责制、技术管理岗位职责、中心机房管理制度、安全运行管理制度、计算机病毒防范管理制度、安全管理制度、故障机维修登记制度、机房违章处理制度、机房巡检制度等。有了章法,机房管理就有了依据,严格管理的指导思想也能落在实处。

1.2.2大、中型机房的日常维护工作管理的内容

大、中型机房的日常维护工作的管理要重点注意如下内容:

1)保持机房整洁卫生,管理人员负责日常维护及机房卫生工作,做到一天一小扫,一周一大扫,保持机房清洁干净,防尘防潮,防止鼠虫进入。

2)不准在机房内会客,谢绝外单位人员进入机房,禁止聊天、喧哗、吃零食、抽烟、乱扔杂物等,保持机房整洁安静。

3)严禁携带易燃、易爆及强磁性物品进入机房。

4)设备一般不得用于私事,严禁在设备的计算机终端上玩游戏,禁止装入其他无关的软件或将计算机挪作他用。

5)日常检测,包括对设备运作情况及系统应用情况的检测。

①设备运行情况检测:

·每日分8次(每3小时)定时进行主要网络设备的检测。做好每日网络巡查与服务器运行情况记录。

·每日对外网服务器日志进行分析,对长时间扫描的IP做好记录,并采取跟踪,一旦发现问题及时处理,把隐患消灭在萌芽状态。

·定期运用系统的网络监视器、网管软件,对网络漏洞进行自我扫描检测,进行分析,做好相应记录。

②系统应用情况检测:

·对应用软件要每天进行检测,及时升级,特别是防毒软件的升级。

·各种应用功能配置参数进行修改时必须与值班人员一同进行,并登记记录。新增加功能必须经过主管领导签字同意。

6)如发现机器故障应及时向主管及上级领导报告,并负责计算机及外设的日常维护与排除故障,处理不了的问题应立即向有关单位联系解决。遇到紧急情况不要慌张,切忌手忙脚乱。在遇到三包范围内的故障时,应及时催促公司上门或将机器送公司维修。

7)机房计算机只供机房工作人员使用。未经组长同意,任何人不准随意删改和增加系统文件,不得将机房内资料、工具等物品带出机房。

8)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。未经主管领导同意,不准自行复制系统内所有的软件和数据或将其赠送、转借给外单位人员。

9)经常检查网络和各设备运行情况,发现问题及时解决,并向主管领导报告。

10)其他人员需使用机房内设备应征得管理人员许可,并报经主管同意后方可进入机房。

11)对机房内网络与设备的运行、应用、维护、查看等情况,建立档案,做好系统日志。要对发生的故障(隐患)以及排除故障情况做好详细记录;值班人员必须认真、如实、详细填写《机房日志》等各种登记簿,详细记录来人、事件、处理经过等,以备后查。定时做好中心服务器的日志和存档工作,任何人不得删除运行记录的文档,否则追究责任。如机房发现意外和紧急情况要及时报告,对重大事故要注意保护好现场。

12)要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全。

13)机房内的交换机和服务器是公司办公自动化的关键设备,任何人不得自行配置或更改系统参数。

14)各客户机应及时做好自身数据的保存工作,不得擅自更改系统及网络设置。如确有工作需要应报至办公室,由办公室指派专人进行,并记录在案。

15)要做好机房的安全工作,对服务器的各种账号、密码严格保密。对网络运行做好监控、做好记录。

16)要及时做好各服务器系统的补丁修正与升级工作。

17)管理人员要有较强的病毒防范意识,要定期对病毒库进行检测,并做好病毒库系统的定时升级工作。发现病毒应及时处理,并做好记录。

18)未经许可,不得在各服务器上安装新软件。如确实工作需要安装,要经过有关领导批准。

19)应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全地恢复。所有备份数据不得更改,并要求做到本地和异地双备份保存。

20)机房内所有设备应妥善保管,任何人不得擅自开关、移动或者使用机房中的任何设备,如有此方面的需要,需有主管领导的批示。

1.2.3大、中型机房的日常安全管理的内容

大、中型机房的日常安全管理,要重点注意如下10点内容:

1.出入机房管理的内容

1)严禁非机房工作人员进入机房,特殊情况需经中心负责人批准,并认真填写登记表后方可进入。严禁非工作人员上机操作。进入机房人员应遵守机房管理制度。

2)进入机房人员不得携带任何易燃、易爆、腐蚀性、强电磁、辐射性、流体物质等对设备正常运行构成威胁的物品。严禁将其他与机房工作无关的物品带入机房。

3)若管理人员申请调走,报告经单位批准前,重大的管理工作提前交接,把密码、钥匙、注意的问题等交接给单位指定人员。

2.机房防火管理的内容

机房是重点防火单位,应做好防火工作。机房工作人员必须严格遵守各项操作规程。拆装设备时必需断电,不允许带电作业;维修设备时必须先切断设备电源,再行维修;禁止使用汽油、酒精等易燃易爆品清洗带电设备;严禁在机房内吸烟和使用加热器具。

防火管理的重点是气体灭火系统能否发挥正常作用。对气体灭火系统维护管理要注意如下4点内容:

1)气体灭火系统应由经过专门培训,并经考核合格的人负责定期检查和维护。

2)应做好对气体灭火系统的定期检查,并做好记录。检查中发现的问题应及时处理。

3)每月应对系统进行一次检查,发现问题应及时处置,检查内容及要求如下:

·对全部系统组件进行外观检查,系统组件应无碰撞变形及其他机械性损伤,表面应无锈蚀,保护漆层应完好,铭牌应清晰,手动操作装置的保护罩、铅封和安全标志应完整。

·全部系统组件的安装位置不得有其他物件阻挡或妨碍其正常工作。

·驱动控制盘面板上的指示灯应正常,各开关位置应正确,各接线应无松动现象。

·火灾探测器表面应保持清洁,应无任何会干扰或影响火灾探测器探测性能的擦伤、油渍及油漆。

·储存容器上的压力表,其指针应在正常的范围内。

·设备可否移位。

·设备工作是否正常。

4)每年应对系统进行两次全面检查,检查内容和要求除按月检查的内容外,还应符合如下要求:

①防护区的开口情况、防护区的用途及可燃物的种类、数量、分布情况,应符合设计规定。防护区外的疏散通道应保持畅通。

②储存容器的固定支架,应无松动现象。

③灭火剂输送管路与喷嘴的连接、灭火剂输送管路本身的连接应安装牢固。

④灭火剂输送管路及电气管路的固定支架应无松动现象。

⑤高压软管应无变形、裂纹及老化。

⑥各喷嘴孔口,应无杂物堵塞。

⑦对每个防护区进行一次模拟自动启动试验。

⑧手动控制、手动/自动切换、紧急停止操作、备用灭火剂储存容器切换操作应正常。

⑨探测设备运行情况检查:主要检查连接线路及探测器灵敏性。

⑩控制设备运行情况检查:

<p data-track="127"