数据中心运维服务主要负责基础设施维护,包括高低压变配电系统、发电机组、不间断直流电源系统、不间断交流电源系统、机房空调系统及电力电缆、机房环境集中监控系统、防雷及接地系统、弱电系统、消防系统等。
通过对设备的正确维护和保养,保障机房设备稳定、可靠、节能运行,确保通信设备的运行环境,延长设备的生命周期,降低设备的故障率。
数据中心基础设施运维的主要任务:
(1)维护机房设施,延长设备的使用周期。
(2)改造机房设施,适应各种需求。
(3)合理运行设施,降低运营成本。
(4)保证各类运行设备设施的电气性能、机械性能、维护技术指标符合标准。
(5)加强运行设备维护管理,做好预防性维护,保证设备稳定、可靠地运行。
(6)及时排除安全隐患,防止重大安全事故的发生。
(7)完善应急保障方案,减少故障历时。
(8)积极采用新技术,改进维护方法,提高工作效率。
(9)合理调整系统配置,提高效率,延长各类设备使用寿命。
(10)加强用电管理,降低能耗,节约运行维护费用。
(11)保持设备和环境整洁。
基础设施运维部门的主要职责,是做好对基础设施系统和设备的日常维护和管理工作;制定维护作业计划,并根据计划做好例行测试和维护工作。定期巡视,及时排除故障和隐患,保证基础设施系统和设备的正常、稳定运行;严格执行数据中心运维管理制度;发生重大障碍和突发事故,要迅速处理并上报;事后积极分析事故原因,吸取教训,制定防范措施,并切实落实;定期收集汇总动力系统各类相关运行数据,分析系统及设备运行状况,提出改善系统及设备运行质量的对策与措施。
设备的维护工作内容:其中需要维护的系统包括电气配电系统、空调系统、消防系统、监控系统等。
(1)高压变配电设备操作人员必须持有当地供电部门颁发的高压变配电设备操作证书。(2)应实行两人值班制,一人操作、一人监护,实行操作唱票制度。不准一人进行高压操作。(4)在切断电源、检查有无电压、安装移动地线装置、更换熔断器等工作时,均应使用防护工具。(5)在距离10kV~35kV导电部位1m以内工作时,应切断电源,并将变压器高低压两侧断开,凡有电容的器件(如电缆、电容器、变压器等)应先放电。(6)核实负荷开关确实断开,设备不带电后,再悬挂“有人工作,禁止合闸”警告牌,方可进行维护和检修工作。警告牌只许原挂牌人或监视人撤去。(7)严禁用手或金属工具触动带电母线,检查通电部位时应用符合相应等级的试电笔或验电器。(8)雨天不准露天作业,高处作业时应系好安全带,严禁使用金属梯子。(1)人工倒换备用电源设备时,必须遵守有关技术规定,严防人为差错。(2)要定期试验信号继电器的动作和指示灯是否正常。(1)机组应保持清洁,无漏油、漏水、漏气、漏电(简称四漏)现象。机组上的部件应完好无损,接线牢靠,仪表齐全、指示准确,无螺丝松动。(2)根据各地区气候及季节情况的变化,应选用适当标号的燃油和机油。(3)保持机油、燃油及其容器的清洁,定时清洗和更换(机油、燃油和空气)滤清器。油机外部运转件,要定期补加润滑油。(4)启动电池应经常处于稳压浮充状态,每月检查一次充电电压及电解液液位。(5)市电停电后应能在15分钟内正常启动并供电,需延时启动供电的,应报上级主管部门审批。(6)新装或大修后的机组应先试运行,当性能指标都合格后,才能投入使用。(2)对于并联冗余系统宜在稳压并机均分负荷的方式下运行。(3)各地根据当地市电频率的变化情况,选择合适的跟踪速率。对于市电频率变化过快的地区,UPS的工作方式宜采用内同步。(1)每组至少选2只标示电池,作为了解全组工作情况的参考。(2)不同规格、不同厂家的电池禁止在同一直流供电系统中使用;不同年限的电池不宜在同一直流供电系统中使用。(3)密封电池在使用前不需进行初充电,但应进行补充充电。补充充电方式应按说明书规定进行。对空调系统每年应进行一次工况测试,以及时掌握系统各主要设备的性能,并对空调系统设备进行一次有针对性的整修和调整,保证系统运行稳定可靠,不带病工作。(1)机房专用空调均有清洁空气用的空气过滤器,机组长期运转时,空气过滤器必然会积累大量尘土,必须经常做清理,以防止因尘土积累过多而阻塞过滤器,造成气流量减少,蒸发器内制冷剂蒸汽过热度减小,蒸发压力降低,影响制冷效果。严重时蒸发器表面结霜,未蒸发完全的制冷剂液体进入压缩机,造成压缩机损坏。空气过滤器属于损耗品,须定期清洁、更换;清洁、更换周期视机房内的空气质量情况确定,要尽量避免在空气过滤器报警的时候再更换或清洁过滤器。(3)送风机如有异常响声,应停机检查风机叶片有无异物或损坏,轴承是否有发热损坏,如果是皮带传动的风机,还须检查皮带是否松动,如果皮带已松须及时上紧;风机皮带属于损耗品,须定期更换,周期为1~2年。(4)过滤器清洁、滤料无破损、透气孔无阻塞、无变形。(6)翅片水槽和冷凝水盘应干净无沉积物,冷凝水管应畅通。(1)室外冷凝器(或干冷器)须定期检查,不能有塑料袋、废纸等异物阻塞冷凝器翅片影响散热;如果翅片上积有太多尘土影响通风散热时,须及时对其进行清洗,否则会造成压缩机排汽压力过高。(2)风扇支座紧固,基墩不松动,无风化现象。电机和风叶应无灰尘、油污、扇叶转动正常,无抖动和摩擦。(3)定期用钳形电流表测试风机的工作电流,检查风扇的调速机构,看是否正常。(4)电机的轴承应为紧配合,发现扇叶摆动或转动不正常时应进行维修或更换。(1)用高、低压气压表测试制冷管路的高低压压力,发现问题及时排除。(2)蒸发器表面不可控结露或出现结霜时,说明蒸发器内蒸发压力偏低。首先检查通风量是否减少(空气过滤器被堵,送、回风风路有阻碍物等),再检查制冷循环回路是否存在阻塞,此时,挂上高、低压压力表,检查高压端排气压力与回液压力是否一致或接近。如果排气压力明显高于回液压力,则说明系统有阻塞(阻塞处表面会有明显的温度降,这是阻塞点处的制冷剂内部压力降造成的表面温度变化,通过手摸可以就可以查到,这种现象通常发生在回液段,压缩机的排气段,由于温度过高,不宜手摸,避免烫伤),最容易发生阻塞的位置是干燥过滤器(系统在施工过程中没有做好清洁工作),通过更换干燥过滤器可以解决。如果系统流动正常,则再检查膨胀阀是否损坏,如均正常,则可判断为系统缺少制冷剂,对系统进行补充直至蒸发压力恢复正常(加注制冷剂时,需注意不要在压缩机吸汽端加注液体制冷剂,以防止“液击”。现在大部分直接蒸发制冷的DX机房专用空调采用的均是涡漩式压缩机,可以不必考虑“液击”的问题,但是加注液体制冷剂也需要缓慢进行)。对于采用R407C制冷剂的机组,由于此种制冷剂是混合型的,加注时必须是液体制冷剂。(3)在冲入氟利昂之前,要先检查系统是否有泄漏,由于润滑油和氟利昂是互溶的,通常在制冷剂泄漏的地方,会有油污出现,通过检查油污点,可以迅速找到泄漏位置,如有条件也可以使用检漏仪确定具体的漏点。(4)压缩机排气压力过高时,首先按风冷冷凝的维护步骤进行检查,再检查冷凝器(或干冷器)风机是否能正常工作,冷凝器放置地点通风是否顺畅,如均正常,则可判断制冷剂充入量过多或制冷系统内混有不可凝性气体(空气或氮气等)。制冷剂充入量过多,表现为当压缩机停机时,温度和压力均同时下降,此时放掉适量制冷剂即可(当制冷剂是含CFC产品时,建议尽量将排放的制冷剂回收,以减少环境的污染);如系统中混有不可凝性气体时,则表现为压缩机开机后压力、温度上升较快,停机时,温度降低较快而压力降低较慢,此时,须通知生产厂家的技术人员前来解决。(5)发现压缩机有异象时,应尽快通知厂家来处理,如震动、响声过大时,宜考虑尽早更换。由于氟利昂制冷剂在高温时,会产生酸,这将会腐蚀新换的压缩机的电机的电气绝缘,所以要尽可能避免在压缩机烧毁的时候再更换。在更换压缩机时,干燥过滤器须一并更换,更换压缩机时,由于压缩机本身带有的润滑油是足够整个系统运行使用到的,但是系统里保存的制冷剂里已经包含了大量的原有润滑油,因此在新换上压缩机时,还需要观察压缩机润滑油的液位窗。必要时,需要释放掉部分润滑油,以避免压缩机负荷过重。压缩机更换后,局部必须要做抽真空干燥处理。如果是已经烧毁的压缩机,还需要考虑在系统上做除酸的处理,具体实施方案,需要找厂家协商解决。(6)定期观察视镜内氟利昂的流动情况,判断有无水分,是否缺液。(1)加湿最好使用软化水。如无条件对加湿供水进行软化,电极式的加湿器须对加湿罐定期清洗水垢(清洗周期要根据当地的空气湿度及水质的硬度来确定),以保持电极板良好的导电性能;如果当地水源导电率偏低,或使用纯净水做加湿时,对于电极式的加湿系统,加湿罐中的水因电流太小无法沸腾时,可往水中添加适量食盐以增加导电率。电极式加湿的加湿罐属于损耗品,罐体内的水垢应定期清理,尤其在秋季、冬季和春季,加湿系统的负荷比较重时,如果水垢不能得到及时清理,将会严重腐蚀电极,此时加湿罐就需要更换(即使是使用软化水,电极也会被腐蚀,只是减少的清洁水垢的工作量,当电极腐蚀严重时,加湿罐也需要更换)。(3)检查给排水管路,保证畅通,无渗漏、堵塞现象。(4)检查电磁阀的动作,加湿负荷电流和控制器的工作情况,发现问题及时排除。(5)加湿的上水系统是机房跑水的主要风险之一,机房内应在机房专用空调的底部做防水处理,并做好漏水检测,与此同时,还需要漏水检测与加湿上水的总阀门做好联动,机房内一旦有漏水报警,需要立刻关断整个机房加湿系统的上水总电磁阀。(1)冷却循环管路畅通,无跑、冒,各阀门动作可靠;定期清除冷却水池杂物及清除冷凝器水垢。(1)定期检查报警器的声、光报警是否正常,接触器、熔断器有无松动或损坏,发现问题及时排除。(2)检查电加热器的螺丝有无松动,热管有无尘埃,如有松动和尘埃应及时紧固和清洁。(3)用钳形电流表测试所有电机的负载电流,测量数据与原始记录不符时,应查出原因,进行排除。(4)检查继电器和电子元件有无损坏和变质,发现问题及时更换。(5)用测量回风温度,偏差超出标准时,应进行调整。(6)测量设备的保护接地线,如果引线接触不良,应及时紧固。(1)机房专用空调的传感器长期暴露在流动的空气中,在尘土、水汽的长期作用下,传感器的数值会发生漂移,使得机房内温湿度的显示和控制产生误差。为减少传感器数值误差对机房温湿度的影响,传感器可进行定期校正。尤其是在同一较大的机房内有多台单独的机房专用空调时,传感器的误差可能会造成一部分空调在制冷或除湿,而另一部分空调在加热或加湿。(2)传感器校正需安排专业的工程师,参照确保是准确的温湿度计。可以使用水银的,或酒精的干湿球温度计;如有条件,可每隔1-2年校正一次。(1)制冷循环回路要保持足够量制冷剂,调节阀动作可靠,系统内无脏污、结冰、堵塞和渗漏。(2)压缩机与电机的同心度要符合技术指标,轴封漏油量不准超出规定指标,运转应正常。(4)润滑油泵运行正常,油路畅通,油量足,无泄漏,定期检测润滑油品质;设备停用期间每半月应启动一次油泵,运转20~30分钟。(1)冷媒循环回路流量充足,各支路分配均匀,压力和温度正常,自动补给装置完好;调节阀作用可靠,管路畅通无跑、冒。(3)二次风除尘过滤装置要经常保持清洁,调节机构灵活可靠。(4)定期检查风机电机的润滑及转动方向,保证足够的空气循环量。(1)冷却循环管路畅通,无跑、冒,各阀门动作可靠;定期清除冷却水池杂物及清除冷凝器水垢。(3)冷却塔风机、播水器运行正常,水流畅通,播洒均匀。(2)送风机如有异常响声,应停机检查风机叶片有无异物或损坏,轴承是否有发热损坏,如果是皮带传动的风机,还须检查皮带是否松动,如果皮带已松须及时上紧;风机皮带属于损耗品,须定期更换,周期为1~2年。(1)各电机运行正常,轴承润滑良好,绝缘电阻在2MΩ以上。接线牢固,负荷电流及温升符合要求。(2)熔断器及开关规格应符合要求,温升不应超过标准。(3)各种电器、控制元器件表面清洁,结构完整,动作准确,显示及告警功能完好。“摸”:使用红外线测温仪测量电机、高低压制冷管路、油路、电动控制元器件等温度是否正常,有无振荡现象。“看”:设备有无打火、冒烟、跑、冒、漏现象。查看冷却水池水位。巡视记录内容:高(低)压压力、油压、油温、能量调节装置数值、冷却水温、冷冻水温度及压力、各系统负荷电流,发现异常及时处理。(4)设备长时间停用时,要将制冷剂压入冷凝器或储罐内,系统要保持正压;排净供冷及冷却系统用水,防止冬天冻坏管路;切断主配电盘电源。普通空调设备应能够满足长时间运转的要求,并具备停电保存温度设置,来电自启动功能。使用普通空调应注意:(1)勿受压:空调器外壳是塑料件,受压范围有限,若受压,面板变形,影响冷暖气通过,严重时更会损坏内部重要元件。(2)换季不用时:清扫滤清器,以免灰尘堆积影响下次使用;拔掉电源插头,以防意外损坏;干燥机体,以保持机内干燥;室外机置上保护罩,以免风吹,日晒、雨淋。(3)重新使用:检查滤清器是否清洁,并确认已装上;取下室外的保护罩,移走遮挡物体;冲洗室外机散热片;试机检查运行是否正常。消防主机、及早期报警主机、早期报警探测器、感烟探测器、感温探测器、报警、排烟、灭火器材、应急广播、消防电话等。(4)控制屏和联动台主备电源自动切换功能和备用电源自动充电功能维护保养。(9)消火栓内手动报警器检测数量。远程联动启动消防泵和联动台手动启停消防泵的控制功能和信号显示功能维护保养。(10)水流指示器报警功能和信号显示功能维护保养。(11)压力开关远程联动启动喷洒泵和联动台手动启停喷洒泵的控制功能和信号显示功能维护保养。(12)烟感探测器和手动报警器报警联动强切非消防电源及防火阀的控制功能和显示信号功能维护保养。(13)烟感和手动报警器报警联动启动加压送风机切断空调风机的控制功能和信号显示功能维护保养,联动台手动启停加压送风机的控制功能和信号显示功能维护保养。(2)卷帘门两侧烟感探测器报警联动卷帘门一步降的控制功能和信号显示功能维护保养,温感探测器报警联动卷帘门二步降的控制功能和信号显示功能维护保养。(1)灭火剂储存容器、选择阀、液体单向阀、高压软管、集流管、阀驱动装置、管网与喷嘴等全系统组件进行外观检查,各系统组件外观完好,标志清晰完整。(2)灭火剂储存容器内的压力,不小于设计存储压力的90%。(3)气体驱动装置的气动源的压力,不小于设计压力的90%。储存容器间内清洁状况,不允许有其它杂物,影响系统的操作。避免阳光直射,冬季和夏季应检查室内温度是否在0℃~50℃之间。检查气动启动瓶组上的压力表,其读数应为4.0MPa~5.0 MPa,若压力不在此值范围内,请立即维护。检查灭火剂储瓶组上的压力表,其读数应在正常区间内,否则立即维护。检查各种阀门是否完好无损,选择阀上的手动手柄是否处于“关”的位置,各种安全销完好无脱落。检查防护区内通道是否畅通,火灾探测器、喷头的清洁状况。检查灭火报警控制器各种指示是否正常,备用电源能否可靠地使用。(5)定期对气体启动瓶组、灭火剂瓶组、管道及分配系统、喷头进行维护和检查。电动启动阀与灭火报警控制器的连接是否正确、可靠、完好,端子是否有松动或脱落。从气动启动瓶组上卸下电磁阀,检查其动作是否准确灵活。检查启动瓶是否超过使用期限,启动瓶每5年检验一次,应根据钢质无缝气瓶标准进行。检查启动管路的完好性,所有连接部位无松动,对有松动、损伤的部位应更换,必要时应进行气密试验。检查灭火剂储瓶组的数量和储存药剂的总量是否符合设计的要求。检查每个灭火剂储瓶中灭火剂的量是否与规定的量相符,不符合规定的要检查原因,修复好后重新充装灭火剂。检查灭火剂储瓶是否超过使用期限,储瓶每5年检验一次,应根据钢质无缝气瓶标准进行。检查管道中和集流管上的安全阀、单向阀、选择阀的安装位置、方向是否正确,与管道连接是否牢靠。安全阀泄压口是否畅通。检查单向阀、选择阀的密封性能,然后将选择阀的手动手柄旋至“开”的位置,选择阀应开启。相应防护区的放气指示灯亮。检查喷头的数量、喷头孔径、安装位置是否符合设计的规定。对局部应用系统,应检查保护对象是否处于喷头的有效保护范围之内。(4)喷头、报警阀、雨淋阀、压力开关、水流指示器等主要系统组件工作正常。(5)报警阀、雨淋阀除应有商标、型号、规格等标志外,尚应有水流方向的永久性标志。(6)报警阀和控制阀的阀瓣及操作机构应动作灵活,无卡涩现象;阀体内应清洁、无异物堵塞。(8)压力开关、水流指示器及水位、气压、阀门限位等自动监测装置应有清晰的铭牌、安全操作指示标志;水流指示器尚应有水流方向的永久性标志。(4)水枪、水带、消火栓阀、消火栓箱、消防卷盘、阀门等主要系统组件正常。(5)水力止回阀除应有商标、型号、规格等标志外,尚应有水流方向的永久性标志。(6)水力止回阀的阀瓣及操作机构应动作灵活,无卡涩现象;阀体内应清洁、无异物堵塞。(2)吸气式烟雾探测火灾报警系统的灵敏度调整范围,系统的报警阀值调节情况设置正常。(4)采样孔堵塞,采样管网断裂等异常情况发生时及时发出报警。(6)采样孔必须相对均匀地分布在不同的采样管上。对明显存在环境差异的采样孔分别予以测试。(1)监控系统设备包括:各级监控中心主机和配套设备、计算机监控网络、监控模块及前端采集设备。(2)监控中心主机和配套设备应安装在干燥、通风良好、无腐蚀性气体的房间,室内应有防静电措施及空调。(3)监控中心主机和配套设备应由不间断电源供电,交流电压的变化范围应在额定值的-15%~ 10%内;直流电压的变化范围应在额定值的-15%~ 20%内。(6)监控系统作为数据中心运维高级维护手段,其自身应有例行的常规巡检、维护操作和定期的对系统功能与性能指标的测试。(7)分析每天的各种告警数据报表、历史数据报表和参数曲线,结合月、季的阶段汇总报表,了解设备运行情况,制定相应的电源设备维护计划。(8)监控中心应实行24小时值班,日常值班人员应对系统终端发出的各种声光告警,立即作出反应。对于一般告警,可以记录下来,进一步观察,必要时做派修处理;对于紧急告警,应通知维护人员去处理,如涉及设备停止运行或出现严重故障,影响通信网的正常运行,应立即通知维护人员抢修,并通知上级主管人员。监控中心内设备,如服务器、业务台、打印机、音箱和大型显示设备等运行是否正常;查看系统操作记录、操作系统和数据库日志,是否有违章操作和错误发生。前端采集设备的数据采集、处理以及上报数据是否正常、准确。采集点接线端子检查并紧固。(12)监控系统的功能和性能指标每季抽查一次,每半年检测一次,抽查检测过程以不影响供电系统的正常工作为原则。监控中心每季将数据库内保存的历史数据倒入外存后,作上标签妥善保管,三年后删除。系统配置参数发生改变时,自身配置数据要备份,在出现意外时,用来恢复系统。(14)集中监控系统软件有正规授权,应用软件有自主版权,系统软件应有安装盘,在系统出现意外情况下,重新安装恢复。具备完善的安装手册、用户手册与技术手册,整套软件和文档由专人保管。(15)每日、每月、每季和每年打印出的报表或输出为只读形式电子报表,装订成册或刻在光盘上,妥善保管。