2024年2月8日发(作者:)
机房一体化智能平台设计方案
摘要:机房一体化智能平台秉承“一体化”设计思路,解决一体化监控和一体化运维中的主要问题,同时实现数据检测与数据分析功能。
关键词:智能平台、一体化监控、一体化运维、数据分析
一、系统设计思路
随着计算机系统技术和设备的不断更新,信息数字化成为席卷全球的浪潮,机房一体化智能平台的也随之多样化,但是性能参差不齐,主要存在问题是功能不够全面,满足不了现在机房维护需求,本次设计遵从软件的先进性、成熟性、适用性、可靠性、系统性、高效性、易用性、智能化、绿色节能、可持续性、开放性的原则,主要包括两个功能一体化监控和一体化运维同时实现数据检测与数据分析功能。
二、系统架构设计
本次构建的一体化智能平台实际需求,形成整体系统功能架构。同时,系统软件具备在线升级和平滑扩容能力,可实现本地或远程等多种升级方式,易于操作,且不同时期版本具备向下兼容能力。系统架构设计完全可满足本项目后续的系统扩容及兼容性要求,避免因后续新需求而带来投资浪费。
另一方面,系统采用模块化的分层架构进行设计,各功能模块之间采用松耦合关系建立,确保系统的稳定可靠运行,任何模块出现故障不会影响同级别的其他模块的正常工作。并能随着业务发展的需求,灵活地扩充更多关联性的功能模块。
系统架构具体描述如下:
1.系统接口层(数据采集)
前端通过安装采集代理,将来自下层专业监控系统的数据进行分别采集;同时系统预留了其他第三方系统对接的接口,方便后期进行系统扩容。
2.集中处理层
平台将采集上来的数据进行数据的存储、图形化组态。根据每个用户的权限,进行数据区分。前端系统的报警事件会先经过复杂事件处理,然后将处理后的报警结果分级分类发送给指定运维人员。同时也会对历史大数据进行统计分析,将预测结果和累计结果发给运维人员做判断。
3.运行管理
一方面是针对于机房基础设施资源的管理,包括设施监控、资产管理、容量管理、能效管理,这些管理模块会将所有的基础设施的运行信息进行关联化处理和可视化呈现,并为数据中心的资源使用及计划提供必要的、基本的辅助工具;
二方面是基于ITIL体系构建的运行管理功能群,包括故障管理、巡检管理、值班管理、维保管理、变更管理、协助工单管理、问题管理、供应商管理、知识管理等。这些管理模块会对基础设施信息和运维人员的工作进行合规化管理,提升运维管理人员工作的电子化、流程化、智能化水平。
4.交互展示
交互展示层包括个人工作台展示、报表报告展示、大屏应用展示、移动终端等相关应用,系统所有的数据展示及信息交互都会在交互展示层统一实现。
三、一体化智能平台功能实现
3.1.一体化监控
建设的一体化监控通过监控、分析数据中心的运行信息,帮助数据中心管理者掌握数据中心基础设施运行情况(当前与趋势),提高数据中心的可用性。
本项目基础设施监控涵盖:视频监控系统、门禁管理系统、智数融合感知系统系统、电力监控系统、空调群控系统、极早期系统、机器人巡检系统。
同时,为确保数据中心各运行参数的全面、准确获取,需补充部署若干重要的数据采集设备,来完善既有的数据中心基础设施监控体系:如,通过新增及改造现网动环监控设备,实现数据中心动环设备的全面、精细化监控,以实现数据中心运行状态的有效监控,并为数据中心能效管理提供可靠支撑;通过在架资产检测终端的部署,获得数据中心在架资产的实时状态,解决账实不符的难题,并为数据中心容量管理提供有效依据;
3.2.一体化监控功能说明
基础设施监控的主要功能包括:故障定位分析、控制策略模型以及监控阈值及告警、故障等级的设置等等。
3.2.1数值计算
数值计算模块提供计算公式的实时运算,包括各种虚拟测点的计算(如数据中心PUE、能耗、平均温度、流量排名、平均流量等实时计算),为各业务模块提供所需的数据。系统采用图形化的工具,允许用户通过拖拽各种计算图元(加、减、乘、除等),创建自己的计算公式,也可以使用和扩展公式库中内置的计算公式(如PUE、EEUE、WUE,冗余量等)。
3.2.2数据分析
数据分析模块基于历史数据,通过各种分析算法,发现潜在问题,分析发展趋势,从而提前预警、告警、作为管理决策信息。
数据分析模块提供可视化分析工具,能方便的能从分析数据集中选择和分析主题相关的数据,关联各种分析图元,如表格,柱状图,饼状图,曲线等,运用各种分析算法,如关联影响分析,聚类分析等机器学习算法,形成各种分析报告。如某测点异常,会对哪些相关项产生何种影响;从关联集里发现异常测点,提示测点故障等。数据分析工具广泛运用于管理平台的各个模块,如容量趋势分析、网络质量分析、能效分析等均使用该工具。
3.2.3复杂事件分析
复杂事件分析(CEP)的目的是甄别有意义的事件,判断“该发生的没有发生,不该发生的发生了”的事件,为准确地告警告知提供支持。复杂事件分析提供多种分析模型,最核心的是事件溯源分析。
通过溯源分析模型提供的建模工具,建立数据中心的事件树模型。当数据中心产生关联性批量告警事件时,分析引擎自动推导产生关联性告警事件的根源事件,并对关联的非根源性事件进行过滤,准确告警,并有效驱动运维管理工单。常见的,停电引起的基础设施告警风暴,某个核心交换机引起的网络告警风暴,通过溯源分析,可以精准的识别出支路停电,核心交换机宕机的关键事件。
3.2.4告警规则配置
告警规则定义是对监控的数据、状态进行分析判断是否在正常运行的范围内,如超出正常范围,则需要产生告警事件。设置该分析判断的规则过程,就是告警规则定义。系统
提供集中统一的视图,对基础设施、IT监控指标的告警规则、告警级别进行设置。告警规则包括阈值告警规则、时延告警规则(状态持续一定时间才告警)、多区间告警(不同阈值区间,不同的告警级别)等,并可以自定义扩展。规则统一配置管理,过程可审计。
3.2.5控制策略
控制策略为各种自动控制、优化控制提供算法支持,并执行控制算法,从而实现系统的自动化、智能化。如执行PID实时控制模型,实现精确自动控制。
系统图形化工具,通过简单的拖拽,即可将算法控制模型和控制对象关联,进行控制参数调试和控制逻辑的自动执行。用户也可以通过控制策略的建模工具,创建自己的控制算法模型,对现有的控制逻辑进行扩展。我们也可以将数据分析的模型或结论和控制策略进行关联,从而实现AI+自动化。
3.3.一体化运维管理
3.3.1能效管理
中心能效管理的基本目标包括:全面掌握能耗状况、合理调配能源、建立能源使用预警机制以及通过测量、统计、分析、改善等管理技术进行能效的持续优化。
3.3.2能效监测
数据中心能源利用效率指标是衡量数据中心能效的量化标准,它可以反映数据中心运行过程中的电能利用情况,是作为数据中心设计和运维优化改进的重要依据和衡量指标。
能耗采集:具备动态实时性能力,通过前端的监控采集为能效展示及能效分析提供基础能耗数据依据。
能效展示:基于本期招标要求,一体化智能平台能效展示界面能清晰地展示当前数据中心整体能耗状况、PUE、DCiE等关键能效指标;可从全局到楼宇、楼层、机房、机柜列、机柜多层级查看能效指标;可实时显示关键子系统的能效分布状况;可查询任意时段的能效历史曲线。
3.3.3能效分析
能效分析模块可以多维度汇总和查看数据中心各层级能耗数据,可以饼图、柱状图、曲线等多种形式导出能耗报表,为数据中心管理者提供分析和决策依据。
提供多样的能耗分析样式,方便运维人员自主进行能效的分析。通过分析工具,对各楼宇能耗、各子系统(BA、配电、空调、照明、IT负载等)的能耗展示、构建能耗间的关联关系;通过同比、环比分析给出能效分析曲线,为运维管理者提供节能控制依据。
3.3.4资产管理
数据中心日常运维的工作核心是保障业务系统不间断运行,而承载这些业务的物理载体是各类IT设备,所以对IT资产的管理显得尤为重要。然而,由于缺乏有效的技术手段,数据中心运行一段时间后,普遍出现数据中心资产管理工作普遍遇到信息维护难、资产定位难、资产盘点难、生命周期管理难等各种困扰,导致资产管理的混乱、信息不准确,管理效率低下,出现资产闲置、浪费,造成客户的运维成本高,影响到业务系统的健康运行。
资产管理模块是IT服务管理解决方案的特色功能模块之一,旨在对机房相关实物资产(库存资产、在架资产、办公资产等)进行全生命周期管理,可以提供面向企业内部统
一的资产管理平台,提供机房实物资产自动化盘点工具,并为机房容量管理、配置管理等IT服务管理提供数据接口,协助管理员高效运维机房业务。
结束语:机房一体化平台方案满足了机房管理的需求,实现了数据展示要求,同时节约了机房运维成本,保证了数据的可靠性,为数据分析提供了有效依据。
本文发布于:2024-02-08 04:28:43,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170733772366531.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |