人工智能如何创建自主运维的数据中心

来源 :计算机世界 | 被引量 : 0次 | 上传用户:zhanbusha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  关于人工智能的讨论目前主要还集中在自动驾驶汽车、聊天机器人、数字孪生技术、机器人技术以及从大数据集中利用基于AI的“智能”系统获取业务洞察力等方面。目前尽管可以自主运维的数据中心和自动驾驶汽车一样还没有成为现实,但是数据中心人工智能已经在技术、运维和人员等方面取得了许多重大突破。
  人工智能(AI)和机器学习(ML)终究有一天将在企业数据中心内发挥重要作用。未来人工智能或许可以帮助企业创建高度自动化的、安全的且具有自我修复功能的数据中心。这些数据中心能够以更高的效率和更高的弹性运行,几乎不再需要进行人工干预。
  人工智能提升数据中心效率和扩展业务的潜力主要在以下4个方面:
  ·安全性:AI工具可以学习正常的网络流量是什么样子的,然后据此发现异常情况,明确哪些警报需要优先向安全人员发布,展开事后分析,并提供有关的安全防御措施建议。
  ·工作负载管理:AI系统可实现工作负载实时地自动向效率最高的基础设施迁移,这些基础设施既可以在数据中心内部,也可以在混合云环境上;既可以在本地,也可以在云端,还可以在边缘环境中。
  ·电源管理:基于AI的电源管理可优化冷却系统,降低电费成本,减少人员数量,提高效率。
  ·设备管理:AI系统可以检查系统是否配置正确,监视服务器、存储和网络设备的健康状况,预测设备的故障时间。

人工智能与安全


  安全运营中心(SOC)的安全专业人员常常会被大量的警報搞得精疲力尽。基于AI的系统可以扫描大量遥测数据和日志信息,处理一些简单的工作,从而使得安全专家有时间展开深入的调查。基于AI的系统可以检测、阻止和隔离威胁,并展开溯源以确定到底发生了什么,以及黑客能够利用哪些漏洞。这使得人工智能在实时入侵检测方面极为有用。
  迅速进行根本原因分析可以帮助运维人员做出明智的决定并采取行动。人工智能和机器学习可以通过对事件进行快速分类和聚类的方式,识别出重要事件并将其与噪音分离,从而简化事件处理(事件响应)。
  除了可以帮助解译那些超出人类能力水平的数据外,AI自动化还可在优化能源使用、工作负载分配和数据中心资产利用效率最大化等方面帮助获取深刻的洞察力。

基于AI的工作负载优化


  无论是在本地还是在云端,AI在应用程序层可自动将工作负载移动到适当的位置。例如,将工作负载自动迁移到最节能的服务器上,同时确保服务器以最高效率(利用率为70%~80%)运行。
  人工智能系统还可将时间敏感性高的应用程序迁移到高效率服务器上运行,同时确保那些不需要迅速执行的应用程序不会消耗过多的电力。
  未来,AI/ML还可根据性能、成本、治理、安全性、风险和可持续性等因素,实时决定将工作负载迁移至何处。

将电源管理与服务器工作负载管理整合在一起


  AI带来的好处与出色硬件设计所带来的好处不在一个层次上。电源管理则是最容易进行改进的地方。这关乎生产力,关系到每个BTU是否可以完成更多的工作,关系到每瓦特电能是否能做更多的工作。
  这也意味着工作要更加智能化,以及设备是否能够更加智能地工作。如果传感器检测到服务器运行温度过高,那么系统可自动地快速将工作负载转移到未充分利用的服务器上,以避免关键任务应用程序出现中断的危险。同时系统会调查服务器过热的原因,是风扇出现了故障(HVAC问题),还是物理组件出现了故障(设备问题),亦或是服务器出现了过载(工作负荷问题)。
  AI系统还可以通过关联HVAC系统数据和环境传感器数据来了解设施目前的状态。例如,基于AI的系统可以帮助数据中心管理员了解当前或潜在的冷却问题。如HVAC单元性能不佳、冷热通道之间的空气量不足,以及由于机柜密度过高阻碍了空气流通导致冷气输送不足等问题。
  容量规划也是一个可能改进的地方。除了寻找发热点和冷却点之外,AI系统还能确保数据中心只为适当数量的物理服务器提供电力,如果出现临时性需求激增的情况,系统还可以启动新的物理服务器以提高可用容量。

  许多企业之所以正在花大力气研究数据中心电源管理,一方面是为了节省资金,另一方面也是为了承担起企业的环保责任。有数据显示,数据中心消耗了全球3%的电力供应,并造成了约2%的温室气体排放。
  谷歌在2018年曾宣布已将其多个超大规模数据中心的冷却系统控制权交给AI程序控制,由AI算法提供的建议使得耗电量下降了40%。

运行状态监控和配置管理监督


  安装了大量组件的IT机柜是劳动密集型工作,因此检查工作可能会存在不及时和不彻底情况。运行状态监视可检查设备配置是否正确以及性能是否达到预期效果。
  数据中心内还有许多需要定期维护的物理设备。AI系统不仅可以对这些物理设备进行定期维护,还可收集和分析遥测数据,帮助确定需要立即关注的特定区域。以大量传感数据日志为基础的预测性设备故障建模可以发现迫在眉睫的组件或设备故障,并评估是否需要立即维护以避免服务中断。
  人工智能系统最终可能会实现“告诉我问题出在哪里,我去解决这些问题”,但是即便实现了这一功能,许多数据中心运营商可能只会接受“如果出了问题,请告诉我要去哪里查看就行了。”
  保持设备平稳安全运行的另一个重要环节是控制“配置漂移”。AI可作为“额外的安全检查”,可帮助识别出由于配置导致的数据中心问题。(注:配置漂移为数据中心术语,指临时配置随着时间的变化可能会导致一些问题的发生。)

部署AI所面临的挑战


  优化和自动化数据中心是数字化转型计划中不可或缺的一部分。新冠疫情让许多公司开始寻求数据中心的进一步自动化,实现数字数据中心由AI驱动并可自我修复。这使得AI在数据中心中具有广阔的应用前景。一些AI/ML功能可用于事件处理、基础设施运行状况和散热优化。
  尽管如此,要想让AI/ML模型超越目前的标准数据中心基础设施管理(DCIM)需要有更多突破,和更多的时间。这与自动驾驶汽车的发展极为类似,早期阶段可能非常具有吸引力,但是与最终承诺的颠覆性经济/商业案例相比仍然相去甚远。
  AIOps平台的成熟度、IT技能和运维成熟度均为重大挑战。更高级别的部署面临的挑战还包括数据质量,以及IT基础设施和运维团队缺乏数据科学技能。此外,需要雇用或培训合适的人来管理系统,以及需要数据标准和相关体系结构都是部署AI时所面临的挑战。
  但是自始至终最大的挑战还是在于人。各种基础设施的运维人员都在做放权给AI的准备。但是如果人们并不信任做出决定的决策者,那么在如此大规模的过渡期间人员如何培训,如何安抚人员的情绪?在过渡期间,人们普遍会想一个问题,那就是如果自己照做了,自己会失业吗?
  对许多企业来说,不仅聘用到资深的数据科学家是一个挑战,就连培训现有员工也困难重重。因为企业员工抵制技术的传统由来已久。以软件定义网络(SDN)为例,SDN已经推出十年了,但是仍有3/4以上的IT运维在使用命令行界面。
  本文作者Neal Weinberg为专注于技术领域的自由作家兼编辑。
  原文网址
  https://www.networkworld.com/article/3568354/how-ai-can-create-self-driving-data-centers.html
其他文献
“我们仍然需要由人去领導、决定和完成工作。”  ——Peter Metzger,DHR International公司副董事长兼网络空间安全和企业风险专家  “我们可以看到,对数据科学家和统计师、工程师的需求越来越大。事实上,AI技术和机器学习技术将被用于越来越多的领域,不仅能够防止欺诈,而且预测欺诈,以便提前采取措施。”——Benoit Grangé,VASCO数据安全公司CTO兼产品管理副总裁
对企业组织来说,有效管理供应链也许从未如此重要。疫情已造成严重的市场混乱,改变了消费者和企业购买产品的方式,并使制造商获得满足要求所需的材料颇具挑战性。  一些企业组织发现,数据分析和相关技术(比如人工智能和机器学习)是确保供应链卓越管理的关键,无论是为了确保供应链的完整性,还是应对快速增长和复杂形势。下面介绍了几家企业组织如何运用数据分析技术来获得成效。美国宇航局(NASA):保持供应链的完整性
随着婴儿潮一代(二战后出生的一代人)即将渐次退休,新的一代人正准备填补这一空白,企业正在交叉传授专业知识,以填补人才缺口并使IT行业更加现代化。  Kirsten Erich于2016年刚从Clemson大学毕业,获得了计算机科学学位,他接受了TIAA的IT职位,这不仅仅是开发人员的角色。Erich是作为TIAA技术助理(TA)招募的几十名新生毕业生中的一员,这是一个轮岗计划,旨在最大限度地提高新
数字经济浪潮正逐步将其巨大的能量渗透进中国商业社会的各个角落,在这一轮轮的产业变革中,每年都有行业领军企业走向自我变革,并通过自己的创新产品、技术,助力产业的升级。   《计算机世界》作为见证者,特设置了“2018年度数字商业年度人物”、“2018年度数字商业解决方案创新獎”、“2018年度数字商业产品创新奖”、“2018年度数字商业创新企业奖”、“2018年度数字商业创新团队奖”——六大类奖项
飞书——2019年度数字化产品创新奖  飞书是全新一代企业沟通与协作平台,通过整合即时沟通、日历、音视频会议、在线文档、云盘、工作台等功能于一体,提供更高效、更愉悦的办公体验。  在飞书,团队沟通再也不会因为被无关信息刷屏而错过重要信息。飞书提供极致降噪的团队沟通工具,可以针对单条消息进行回复,即使同时讨论多个话题也不会混乱,还可以使用快捷表情回复,减少对他人的干扰,让成员之间沟通更专注更顺畅。 
数字化转型让网络变得越来越重要,尤其是在客户、员工、云应用程序和物联网(IoT)设备与企业相连接的边缘。许多原因导致过去传统的静态和无差异化网络边缘已不再够用,因此随着企业着手制订数字转型计划,网络必然会迎来大发展。  网络专业人员应着眼于提升安全性和部署软件定义网络(SDN),因为后者支持在网络中快速进行大规模调整,能够适应数字转型带来的诸多挑战。数字化转型的障碍  应用程序已经过重新设计,并正
企业应该在安全方面花多少钱呢?答案很简单,视具体情况而定。这些因素包括企业的业务类型、处理的个人数据、敏感数据或知识产权的类型、所面临的监管要求、IT基础设施的复杂性、成为攻击目标的可能性以及其他一些可能会产生影响的因素。  与“企业应该在安全方面花费多少?”这一问题相比,一个更为重要的问题可能是:“一个企业应该如何确定需要在安全方面花费多少?” 能够帮助企业确定适当的安全支出水平的持续性流程对于
从保护物联网到重新培训IT人才,直至寻找新的收入来源,首席信息官们面对太多的问题,以至于日夜忧心忡忡。  当首席信息官们从铺天盖地的数据中稍有喘息时,他们就在想谁来保护数据。他们面临着降低成本的压力,同时还要非常敏捷地应对与承包商打交道时遇到的困难,以及把数据和服务迁移到云中时所面对的挑战。一直以来,随着新威胁的出现,我们也要有随之跟进的应对措施。  从寻找合格的IT专业人员到防止他们跳槽,一系列
企业数字化转型已经进入到2.0时代,越来越多的企业不再“摸着石头过河”,而是已经达到数字化成熟阶段。Gartner的数据显示,2019年有33%的企业达到了数字化成熟阶段。  与此同时,“数字鸿沟正在形成、规模化越来越重要、平台与生态驱动创新速度倍增。企业也正从单纯的数字化创新转向了业务的全面数字化和智能化。”  目前来看,各行业数字化水平存在较大差距。IDC在《中国企业数字化发展报告》中指出,中
如今研究人员已经在提升加密技术和算法方面取得了进展。以下是密码学研究当中最热门的4个领域。  谁拥有数据?哪些人可以读取哪些数据?互联网中最棘手的一些问题的核心是将所有的东西都整合到一套加密算法当中。这些例程在数学上非常复杂,甚至连专家都难以理解,但是阻止欺诈、保护隐私和确保准确性的背后取决于每个人都能够正确地使用不同的加密算法。  加密算法在控制网络空间中能够发挥的巨大作用,吸引了大量的研究人员