新闻资讯
News informationx
数据中心的可靠性与供电
如今,以互联网为核心的 IT 通信已成为现代生活所依赖的重要基础设施。数据中心承载着为信息网站、AI人工智能应用和数据存储提供支持的服务器及网络系统。为保障这些信息服务持续运转,数据中心需要保持全年 24 小时不间断的稳定运行。即便是短短几秒钟的断电/故障停机,也会对社会和企业造成严重的影响。
全球电气测量行业领跑者-HIOKI日置集其先进的测量技术和理念,汇集全球落地的经验方案,为数据中心及其上下游关联客户提供电气测量解决方案,致力于解决行客户的痛点难题,提升用电安全与能效。
本文将介绍数据中心的关键系统和相关调试测试,同时介绍电气测量仪器在在维持数据中心稳定运行方面所发挥的关键作用。

数据中心与变电站
一、 构成数据中心的核心设备
数据中心的核心基础设施主要分为三大类:
1.供电设备
2.冷却空调设备
3.服务器与网络设备
· 
供电设备, 冷却空调设备,服务器与网络设备
1.供电设备(变电站、UPS不间断电源、发电机)
数据中心内的服务器与存储系统需24小时不间断运行,这类信息技术设备的正常工作以稳定、纯净的电力供应为前提,哪怕瞬间停电,也可能引发系统故障与数据丢失。为实现稳定运行,数据中心均配备了可备份的稳定供电系统。
典型组成如下:
· 附近变电站的市政供电
· 不间断电源(UPS)系统:可应对短时停电
· 柴油发电机(Genset):在长时间断电期间提供电力。
这些系统均做了冗余设计,当设备发生故障时,备用电源可以立即接管。
2.冷却空调设备(空调、冷水机、冷通道、热通道)
服务器产生的热量与其功率消耗成正比。如果服务器因发热导致内部温度升高,可能导致故障或关机。因此,高效散热是稳定运行的关键。冷/热通道隔离是一种冷却方案,它通过分离服务器的进气和排气路径,防止冷热空气混合。功耗持续攀升是数据中心面临的难题之一,大型数据中心的冷却空调功耗占比极高,因此提升冷却效率对数据中心的稳定运行与节能降耗而言,都具有至关重要的意义。
3.服务器与网络设备(服务器、GPU图形处理器、PDU电力分配单元、机柜)
机柜是数据中心核心信息技术设备的基本组成单元,这类设备主要包含:
· 服务器、图形处理器(GPU)等计算节点
· 电力分配单元(PDU)
· 网络设备与结构化布线
AI人工智能计算显著增加了机柜的功率密度,现在许多机柜的功率需求达到10-20 kW甚至更高。这就要求服务器供电系统能够支持大电流驱动以及应对负载的突发波动,也正因如此,电压调节器、多相转换器、多层陶瓷电容器(MLCC)等高性能供电元器件的市场需求不断攀升。
延展: 数据中心电力架构的冗余设计
数据中心支撑着金融交易、云服务等不允许中断的核心业务,设备运行时长成为衡量其性能的关键指标。可靠性越高的数据中心,停机时间越短,顶级可靠性的数据中心全年允许的停机时间仅为数分钟。为确保设备(尤其是供电设备)在故障发生时仍能持续运行,数据中心通过可替代的备份系统实现了设备冗余。在顶级的供电配置中,供电系统从输变电阶段就分为两个独立系统,受电线、发电机、不间断电源、配电设备均相互独立,形成双重冗余。
冗余配置示例:接入两套相互独立的供电系统

二、调试测试
新建数据中心需通过一套调试(Commissioning)的验证流程,确保大量设备与系统能够协同正常工作。
调试流程分为 1 至 5 级共五个阶段,按顺序依次开展设备工厂测试、现场安装确认、单机测试、系统/子系统测试,最终通过实际负载下的综合运行测试完成全部调试。

每个阶段均需使用测量仪器进行验证,确认设备与系统的运行是否符合设计标准。各阶段的具体验证要求会因业主与开发商的需求不同而存在差异,需逐一确认。
0 级:设计评审
相关人员通过对数据中心的设计方案进行评审,确认设计指标是否满足业主的需求。在该阶段发现问题的成本效益最高,是整个调试流程中至关重要的一环。
1 级:工厂验收测试(FAT)
设备运抵现场前,在生产厂家的工厂内开展工厂验收测试(FAT: Factory Acceptance Test),验证单台设备是否达到性能指标要求。通过该测试排查设备的故障与指标偏差问题,避免设备现场安装后出现返工情况。
2 级:安装检查
完成 1 级工厂验收测试的设备将被运输至现场并进行安装,本阶段需在设备通电前,检查其物理安装状态,确认设备是否因运输震动、安装操作出现损坏或性能变化,保障设备安装安全。
3 级:单机测试
验证现场安装完成的单台设备是否按照指标正常运行。通过单独确认每台设备的运行状态,可在后续系统联调出现故障时,快速定位问题原因。
4 级:系统测试
在实际的安装环境中为各系统施加电力与负载,验证其是否按设计要求实现功能。本阶段不进行系统间的联调,仅对各子系统开展单独测试。
5 级:集成系统测试(IST)
将所有系统同时投入运行,确认整个数据中心的运行是否符合设计标准。本阶段会模拟各类故障场景,包括停电、大规模负载波动等,同时也会模拟不间断电源、电力分配单元故障,以及多台设备同时故障等贴合实际的极端场景。
HIOKI日置的测量解决方案-【典型案例】共享
下文将从日置为调试测试提供的众多解决方案中,选取典型案例进行介绍。
1. 不间断电源(UPS)、发电机(Genset)的运行测试
综合系统测试的典型场景之一,是模拟主电源断电的情况。若数据中心运行中主电源突然中断,系统将执行以下操作:
· 所有不间断电源立即切换至电池模式,维持负载供电;
· 所有发电机启动,并在数秒内接管负载供电。
同时,测试也会模拟极端场景,例如停电过程中备用供电线路发生故障的情况。

供电备份示意图:工频电源中断时,不间断电源将提供数分钟的备用电力,发电机在该时间段内完成启动,确保数据中心无停机时间。

使用 日置电能质量分析仪PQ3198 开展负载波动测试的案例:无论负载电流如何波动,电压始终维持在稳定数值。
2. 发电机、UPS备份设备的工厂验收测试
发电机、不间断电源等备份设备在出厂前,均需开展工厂验收测试,核心验证项目如下:
· 电压与频率的稳定性
· 切换过程中的瞬态响应
· 谐波指标
· 运行效率
测试过程中还会遵循国际标准开展,采用HIOKI电能质量分析仪PQ3198、功率分析仪PW8001、存储记录仪MR6000等测量仪器,保证精准测量,确保数据的一致性。

3. 螺栓紧固检查:防范发热引发的事故与故障
数据中心的母线槽、断路器连接部位会有大电流通过,若螺栓紧固不足,将导致接触电阻升高,进而引发设备过热甚至火灾。使用HIOKI日置的便携式四端子电阻计,可通过毫欧级的微电阻测量,确认螺栓是否紧固到位。

总结
数据中心是是数字时代的信息心脏,要求全天候24 小时不间断稳定运行,尤其是超算数据中心,对冗余配置与超高运行率有着严苛要求。调试测试通过五个阶段的层层验证,确保核心系统按照设计标准稳定运行。
HIOKI日置的测量仪器在整个调试流程提供全方位的解决方案,助力实现高可靠性的验证工作。精准、可靠的测量,是保障数据中心安全、稳定、高效运行的关键。