新闻中心

了解最新公司动态及行业资讯

新闻中心

了解最新公司动态及行业资讯

新闻详情

实战 | 数据中心IT设备硬件智能运维探索与实践
时间:2022-07-27   

文/王广平 彭克健 胡斌

大唐集团以热效率为核心能耗管理指导意见_启闭机房标准化管理_机房能耗管理

在2021中国(北京)数字金融论坛上,中国人民银行副行长范一飞指出,数据中心是数字金融发展的基础。在加快网络通信三个方面,着力建设布局科学、安全可靠的数字基础设施,打造金融转型创新发展的“数字基地”。

当前,数字化日益成为经济社会发展的核心驱动力,对传统金融业带来革命性影响。以云计算、大数据为代表的新技术的深入应用,使得金融机构对数据资源存储、计算和应用的需求不断增加。作为金融机构的“心脏”,新形势下数据中心的转型发展尤为关键。传统数据中心迫切需要实现新技术的融合与发展,加快向新型数据中心演进的步伐。

在人工智能和大数据蓬勃发展的时代,新的业务需求也在推动数据中心的发展。一般来说,中小型数据中心的IT设备数以万计,大型数据中心的IT设备数量甚至超过10万台。面对海量设备,IT人员如何提升运维效率?

传统运维模式下,每个品牌都有独立的IT设备管理平台,数据中心设备品牌多、种类多,导致管理平台多、管理不清晰、缺乏集中统一的硬件运维平台。

综合考虑未来数据中心硬件管理演进方向,深耕前沿技术,依托带外管理方式,结合大数据和分布式技术,构建可管理各类IT设备的硬件管理平台例如服务器、网络和存储。数据中心运维模式转型进一步契合当前环境,打造从人维到智能、从被动到主动的大型IT设备运维体系,快速感知硬件设备故障,快速获取设备信息,快速记录设备维护情况。等良好成绩,为行业各项业务的稳定运行奠定了坚实的基础。

改进传统监控模式,提高运维效率

通过直接监控IT设备独立的带外管理端口,收集硬件信息和内部传感器动态数据。借助平台采集的详细设备数据,对故障情况进行统计分析,利用数据将传统运维转化为运营,保障各项业务的正常运行,为智能化和智能化提供全栈基础能力。无人数据中心。

1.“谋略”——远程监控和故障排除,减少人员进入机房

依托平台,可进行开关机、重启、固件升级、媒体挂载、日志下载等操作,屏幕敏感行为全程记录,无需进入即可安全运维电脑室。故障定位效率大幅提升,故障节点定位时间从2小时缩短至5分钟,大大节省了跨专业和厂商沟通的时间。

2.“鞭入内”——精细检验,杜绝检验盲点

定制设备巡检周期,万台设备巡检时间从2小时缩短到5分钟,巡检人力从5人减少到1人,每台设备巡检次数从1次/天增加到144次次/天,全天设备巡检次数115万次,远大于人工巡检次数。设备报警检出率从50%左右提高到100%。检查范围包括硬盘、内存、阵列卡、设备面板灯、风扇、插槽和电源模块。及时发现告警,并以邮件、电话等形式自动推送给设备管理人员。肉眼有遗漏等问题。

从设备、机柜、机房、服务、固件版本、设备配置变更等多个维度自动监控IT设备。

3.“一目了然”——纵观全局,大屏运维全方位可视化

提供设备、机房、机柜、业务、监控、能耗、资产、网络等多维度大屏展示,为管理者提供统一视角的管理工具,协助管理者快速获取相关信息,实现循证管理决策。

机房能耗管理_大唐集团以热效率为核心能耗管理指导意见_启闭机房标准化管理

图1 大屏视图列表

支持运营决策的数字化管理

1、“宝物如家”——IT设备全生命周期资产管理,配套采购

覆盖IT设备上线、维护、变更、下线、报废等全生命周期管理,管理设备达10000台,对接CMDB平台,实现设备初始配置联动以及变更信息,包括:机架、空间、位置变更、部件变更、网络配置变更、维护管理、序列号变更等机房能耗管理,及时掌握机房IT设备动态,预警相关风险。

依托平台采集数据,统计分析各阶段IT设备数据,包括资产运行状态、故障率、剩余空间、能耗、维护等,支持自定义报表,直观反馈设备/部件故障率、品牌故障率、库存设备比例等信息,为设备选型和配件采购提供数字化依据。

大唐集团以热效率为核心能耗管理指导意见_机房能耗管理_启闭机房标准化管理

图2 设备故障率显示

2、“节能减排”——双管齐下打造绿色机房

借助平台,加强机房能耗管理。从“设备”的角度,可以控制无形的能耗数据,辅助设备放置决策,提高机柜利用率。联动动环系统动态调节机房整体温度,节省机房能耗。

实时采集设备能耗和温度数据,全方位实时监控机房、机柜、设备、服务的能耗信息,为决策和预测提供可靠依据。设备实时报警,精准控温,降低能耗15%以上,降低PUE,打造绿色数据中心。

系统联动打造一体化运维系统愿景

在信息技术发展的背景下,依托大数据、云计算、人工智能、物联网等新技术,进一步完善行业数据中心运维方式,开放硬件管理平台DCM、3D大屏系统、巡检机器人系统联动。接口,打造大数据+AI+自动化驱动的无人值守机房运维模式,建立故障快速响应和自动处理机制。

大唐集团以热效率为核心能耗管理指导意见_启闭机房标准化管理_机房能耗管理

图3 3D大屏联动效果

启闭机房标准化管理_大唐集团以热效率为核心能耗管理指导意见_机房能耗管理

图4 机器人联动检查

从研究机器人参与智能巡检,到未来探索AR/VR等可视化运维工具,整合内部现有运维流程,打造一体化运维体系。我们将扎扎实实走好每一步,提升运维质量,保障业务高效运行,持续为数字银行建设赋能。

未来展望

5G、大数据、人工智能、图像识别等新技术的蓬勃兴起,正在推动数据中心管理技术的发展,势必给数据中心的数字化运维带来质的变化。如何利用新技术推动运维转型,是每个运维人都值得思考的问题。

在线咨询

微信扫一扫

微信联系
返回顶部