Molet

机器学习工具在数据中心的应用与发展

Molet 运维技术 2022-11-14 454浏览 0

在互联网诞生之初,数据中心规模很小并且很简单。一个大型电子商务服务数据中心仅用几个19英寸机架来部署所需的服务器,存储器,以及网络设备。如今,超大型数据中心成千上万的硬件设备部署在数千个机架上。随着数据中心设计的变化,这些大型数据中心或建在靠近大型人口中心,或建在电力廉价的偏远的地区。

随着数据中心运营的自动化的发展,像AWS或微软 Azure这样的公共云供应商所雇用的高级数据中心工程师越来越少,数量通常比安全人员和普通技术工人更少。更少的人员管理更多服务器,这意味着监控数据中心电力和冷却基础架构需要更多依赖传感器,这些现在都被称为物联网硬件。这些硬件有助于在一定程度上识别问题,但是在很多情况下,传感器并不能代替经验丰富的设施工程师。例如,通过声音辨别设备运行的情况,通过声音还可以了解哪个个风扇将出现故障或通过水滴的声音来定位泄漏的地方等等。

机器学习工具在数据中心的应用与发展

谷歌公司为机器学习而定制的采用张量处理器(TPU)的服务器机架

数据中心管理人员需要更多的传感器来监控现代数据中心基础设施,新一代应用程序旨在通过将机器学习应用于物联网传感器网络来来填补这一空白。这个想法是将经验转变成规则来帮助传感器辨析声音和影像,例如,为数据中心增加一个新的自动化管理层,可以预测和防止数据中心基础架构的故障。 451 Research公司分析师Rhonda Ascierto表示:“快速的恢复时间和有效的容量配置也可以降低数据中心风险。”

结合DCIM和多样性的数据

第一步是利用数据中心基础设施管理或DCIM软件中的预测分析。以位于加利福尼亚州奥克兰的一家名为Vigilent公司的软件为例。“控制系统基于机器学习软件,用于确定变量之间的关系,如机架温度,冷却单元设置,冷却能力,冷却冗余,功耗和故障风险。它通过打开和关闭各相关单元来调节冷却单元,包括变频器(VFD),上下调节变频器,以及调节单元的温度设定值。”Ascierto说。它使用无线温度传感器,并预测如果操作员采取某些措施会发生什么,例如关闭冷却单元或增加设定点温度。

另一个例子是英国Oneserve Infinite公司,该公司将传感器与多种数据点相结合,例如使用天气条件,以提供称之为“预测性现场服务管理”的Exeter.其目的是预测维护要求,避免故障停机,并将停机时间降至最低。 Oneserve公司首席执行官Chris Proctor表示,通过应用这些技术,可以同时处理战略规划和采购。“数据中心将能够更准确,有效地管理资产和资源。”(据悉这种功能尚未在任何数据中心中使用。)

Oneserve公司更关注的是维护问题,跟踪了解过去维护中的问题,允许用户详细地说明每次出现问题的地方。在现在,这依然是一种非常费时费力的人工操作方法,但是将来工作人员会利用这种数据来训练机器学习系统。

挖掘人类的知识

将传感器数据与运维经验相结合的例子是圣荷西的LitBit公司。根据该公司创始人兼首席执行官Scott Noteboom的说法,他们曾经为雅虎和苹果公司提供数据中心战略,LitBit公司的数据中心人工智能或DAC(数字模拟转换器),允许运营商对机器进行培训和调整,向工作人员学习可以获得响应数据中心的事件的能力,从而提醒操作人员或最终自动执行操作。LitBit公司方法的关键是采用一种辅助学习形式,当系统检测到新的异常事件时,系统会向操作人员发出警报,然后运营商将来制定一套对这些事件做出反应的规则。为了收集数据,LitBit公司有一个移动应用程序,可以接受视频,然后将其转换成数千个图像进行培训。

这家初创公司提供了一个托管云服务,可以利用许多用户的匿名数据来构建更复杂和更准确的模型。一些客户会将他们的训练模式进行保密,而另外一些客户可能会将其作为额外的收入来源对外出售。正如Ascierto所指出的那样,“数据中心管理数据的价值在大规模聚合和分析时会倍增。通过将算法应用于许多客户聚集的大型数据集,包括不同类型的数据中心和不同的位置,供应商可以预测设备何时出现故障,以及何时会出现冷却阈值。

当具有知识经验的操作人员不在身边时,一些隐含的知识可以帮助系统在操作中来识别问题并做出更快的反应。数据中心人工智能可能不会完全替代数据中心工作人员,但它可以不断地增强技能帮助运维人员解决问题。

这个领域还不成熟,但发展速度很快。对传感器进行机器学习正在迅速发展,并被广泛应用于各行各业。微软研究部门一直在与Sierra 系统公司合作,开发基于机器学习的油气管道缺陷的音频分析,利用其认知工具包来帮助对出现的异常进行分类。

基于人工智能的数据中心管理服务是新兴技术,目前还在发展中,还需要进行大量的培训。 Ascierto指出,企业的DCIM软件可能需要更多的传感器。 “如果企业想利用人工智能进行端到端冷水机组到机架的决策,那么其设备以及环境传感器和电气仪表将需要安装声学和振动传感器。如果目标是优化和自动化冷却单元的设定点温度,则可能每个机架(顶部,中间,底部)需要多个环境传感器。

人工智能系统正式交付使用还将需要一定的时间,就像数据中心招募的新的工作人员一样,不过类似的机器学习工具终将可以真正的帮助您运营数据中心。

继续浏览有关 网络 的文章
发表评论