AIOps:在IT运维中注入智能

来源 :计算机世界 | 被引量 : 0次 | 上传用户:tongchenggouwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  云平台、托管服务提供商和进行数字化转型的企业得益于一种新兴的IT趋势:使用支持人工智能的IT运维技术来自动监控和管理IT业务。
  这种新出现的技术趋势被称为AIOps,它帮助企业提前解决潜在的停机和性能问题,避免对运维、客户和收益产生负面影响。而更先进的项目开始使用人工智能系统,不仅是为了发现问题,或在问题发生之前预测问题,更是为了通过智能、自动化的缓解措施及时对事件做出反应。
  那么,AIOps到底是什么,企业现在是怎样使用它的呢?本文中,我们将深入了解人工智能IT运维的技术、策略和挑战。

什么是AIOps?


  AIOps是一种新兴的IT技术趋势,它将人工智能应用到IT运维中,帮助企业智能地管理基础设施、网络和应用程序,以提高性能、弹性、容量、正常运行时间,以及在某些情况下的安全性。通过将传统的、基于阈值的报警和手动过程转移到人工智能和机器学习系统中,企业利用AIOps能够更好地监控IT资产,对负面事件和影响进行事前预测。
  Carhartt公司首席信息官John Hill在这家工装制造商的三个主要业务领域中使用了AIOps:服务管理、性能管理和IT自动化。多亏了智能监控,Carhartt现在能够在问题影响用户和客户之前发现问题。
  他说:“这是一个监控环境、掌握动态并根据事件指标来采取行动的全过程。以前,你可能会通过停机或者某些地方不工作的迹象来知道什么时候需要进行修理——而在你发现这些迹象之前,所发生的事件早已损害了客户体验。”

AIOps应用情形


  AIOps可能已经应用在了企业的IT业务中了,你自己甚至都不知道。先进的CRM和ERP系统通常内置了智能管理功能。大部分主要的云平台也利用了支持机器学习的监控和管理工具。
  但是,在单点解决方案中依赖内置功能有其缺点。在一项AIOps交流调查中,65%的IT企业表示,他们仍然依赖于某种监控方法(未必具备智能功能),这些方法要么是孤立的、基于規则的,要么不能满足整个IT环境的需求。此外,根据最近的一项BigPanda调查,42%的IT企业在其IT环境中使用了10多种不同的监控工具。
  Carhartt开始时就是这样使用AIOps的。Hill说:“以前,对于不同的环境,我们必须分别进行监控。”为了解决这种复杂性,Hill选择将监控功能结合到两个平台上,首先在AppDynamics上监控应用程序性能,然后添加Turbonomic来监视Carhartt的基础设施。
  “黑色星期五”和“网络星期一”购物高峰期间,该公司网站的性能问题迫使公司不得不做出改变。Hill说,当公司看到问题时,客户早就感觉到服务质量下降了。
  自Carhartt在2017年秋季部署AppDynamics以来,黑色星期五和网络星期一的高峰期间没有出现停机问题。
  他说:“我们的增长创下了记录。我们的增长速度是整个行业的两倍,没有出现我们以前经历过的任何停机和性能下降问题。”
  Carhartt在2019年初增加了Turbomency,用于本地和云环境的资源管理。他说,“有了新系统后,利用率从70%提高到了92%。这能为我们节省25%的基础设施成本。”
  其会自动处理增加的利用率需求,无需人工干预,但减少容量仍然需要人工批准。
  Hill说:“新系统能够发现我们面临的容量问题,并将更改请求发送给ServiceNow。当我们的容量过大时,它会在ServiceNow中创建一个条目,有人会第一时间注意到它。这种查看非常快速——点一下就可以了。目前,我不需要将其进行自动化。”

  公司的下一步是自动化业务任务,例如使用文本识别和自然语言处理功能来处理客户订单。

AIOps应用


  据Gartner的数据,到2023年,40%的企业将使用AIOps来监控应用程序和基础设施。但市场普遍认为,AIOps的应用仍处于早期阶段。据Loom系统公司在2019年赞助的一项调查,到目前为止,只有5%的企业实施了AIOps。波士顿咨询集团(Boston Consulting Group)总经理兼合伙人Akash Bhatia指出,影响应用的原因之一是,市场上的供应商太多了。“的确太多了。”
  据Loom系统公司的报告,有59%的企业还处于试验研究阶段,客户仍然很难确定他们到底能提供什么。Bhatia说,另外,很多供应商只擅长于部分AIOps,例如,应用程序性能监视、基础设施管理以及网络性能监视和诊断等。他补充说,随着技术的成熟,市场出现了整合迹象。
  IDC预测,其称之为IT运维分析的AIOps市场将从2018年的29亿美元增长到2023年的45亿美元,其中大部分增长来自“AIOps即服务”。IDC的AIOps分析师兼项目副总裁Stephen Elliot认为,虽然AIOps通常与企业软件平台或者云服务捆绑在一起,但大企业已经开始将AIOps作为独立的预算项目进行投资。
  他说:“他们认识到自己身处多云的环境中。而且他们正在进行敏捷转型,他们有DevOps部门,他们意识到自己必须加快步伐,以后会越来越复杂。”

AIOps价值定位


  利用AIOps的企业认识到了从执行分析和预测的系统转向自行决策系统的重要性。他们要实施进入自动化。
  Elliot说:“他们需要能够收集大量信息、应用分析、减少噪声、加快问题发现和解决速度的工具。”   自动化还要求进一步增强AIOps集成。应用程序性能问题可能是由软件问题、网络问题或者硬件问题引起的。在多云环境中,根本原因有可能在某个云中,也可能在另一个云中,或者是多种因素组合的结果。如果企业的AIOps基础设施是分散的,那么会很难找到问题的根本原因并解决问题。
  AIOps供应商ScienceLogic的首席执行官David Link表示:“然后就回到了手工操作,每个部门都有自己的工具。如果每一应用项目都有自己独立的工具,这种方式是不能扩展到整个企业中的。”
  与此同时,像Carhartt这样已经部署了AIOps的企业会发现他们的投资得到了回报。据企业管理协会的一项调查,81%使用AIOps的企业报告实现了投资回报。事实上,42%的受访者认为AIOps的价值“显著”超过了成本。
  据EMA,AIOps最常见的六种应用情形是跨域应用程序基础架构和性能、容量管理和基础架构优化、DevOps和敏捷、客户/最终用户体验管理和业务调整、成本管理和变更管理。

能够创收的AIOps


  Cincinatti Bell的CBTS子公司为企业客户提供通信服务。该公司首席创新官Joe Putnick介绍说,CBTS过去代表着“Cincinnati Bell技术解决方案”,但随着企业拓展到其他地区,现在代表了“咨询建设转型支持”。
  他说,转到AIOps对帮助缩短反应时间非常重要,现在已经成为新的商机来源。Putnick说,例如,在企业转向AIOps之前,需要数小时、数天的时间才能将客户设备纳入到CBTS监控、管理和计费系统中,甚至无法纳入其中。
  Putnick说:“现在,我已经把配置时间从5小时缩短到了2分钟。所谓配置,我指的是整個IT服务管理和事件管理系统的全面配置。我知道这些统计数字很有说服力。”
  该公司还使用AIOps来分析使用模式和自动响应。他说:“我们正在应用AIOps来预测哪里有容量需求,这样,我们能够保持最长的正常运行时间,尽可能让客户满意。”
  Putnick说,AIOps帮助CBTS从每月安装不到40个站点增长到每月平均安装500多个站点,而人数几乎相同。
  CBTS同时使用了AWS内置的系列工具、ServiceNow自带的自定义编码应用程序、定制机器学习和自适应算法以及ScienceLogic的AIOps工具。下一步:为客户提供增值服务。例如,CBTS为客户提供了客户服务聊天机器人,可以利用其AIOps系统产生的数据、分析和预测结果,使其变得更加智能,响应能力更强。

AIOps和托管服务提供商


  如果想要了解AIOps的全部潜力,没有比托管服务提供商(Managed Services Provider,MSP)行业更能说明问题了。
  数字服务咨询公司Nerdery的数据科学主管Justin Richie说:“这可能是目前市场上最大的一块。他们肯定在尽可能地投资于算法支持。他们知道,除了硬件,最大的支出是人力资本。”
  对于MSP来说,AIOps意味着效率更高、成本更低、解决时间更短——所有这些都是该领域重要的竞争优势。
  总部位于圣何塞的MSP NetEnrich公司的战略与运维高级副总裁Raghu Kamath说:“这是我们AIOps价值定位的一半。过去12个月中,我们先是在少数客户中实施,然后逐步扩展到我们的客户群里。现在,50%以上的客户都在AIOps平台上。”
  NetEnrich最明显和最直接的一个好处是减少了误报。错误警报会给员工带来不必要的工作,而且减慢了客户的响应时间。
  Kamath说:“我们发现和采取行动的响应时间加快了——实施AIOps后,我们的平均修复时间至少缩短了30%。而且随着AIOps变得更加成熟,并且引入了更多的推理模型,其应用会越来越广。”
  NetEnrich公司在很多不同的客户环境中使用AIOps,因此,Kamath对这项技术有着独到的见解。首先,他发现环境越同质,AIOps部署起来就越容易。
  他介绍说:“当你开始整合所有这些不同的环境时,情况会复杂得多。”
  此外,使用公有云基础设施的客户也有优势,因为其环境的一致性更好。不过,让云供应商开放他们的系统有时候也会遇到一些障碍。
  他说:“但是,公有云供应商正在改变他们的定位。如果看看两年前到现在能够访问的数据量,这已经好多了。”
  Kamath说,在传统应用程序和硬件上应用AIOps是一件棘手的事情。如果没有足够的日志,就很难推断出任何东西。这就是为什么我们鼓励客户加速他们的数字化转型,并使其应用程序现代化的原因。”
  Maria Korolov过去20年一直涉足新兴技术和新兴市场。
  原文网址
  https://www.cio.com/article/3529772/what-is-aiops-injecting-intelligence-into-it-operations.html
其他文献
首席信息安全官最难落实的一项任务是怎样对网络安全功能的成功与价值进行量化。  事实上,安全主管及其部门多年来使用了无数的指标。然而,很多高管和董事会成员抱怨说,这些指标无法让他们充分深入分析或者理解安全部门的表现、改进情况,以及在哪些方面还存在不足。  安全公司SpearTip的总裁兼首席执行官Jarrett Kolthoff解释说:“首席执行官和董事会听到的技术术语太多了。首席信息安全官一直在向
云计算发展大趋势,从SaaS到IaaS直至PaaS  据分析公司Forrester,尽管公有云所固有的灵活性使其成为最具革命性的一代技术,但其在企业界的应用还没有超过50%,该公司还预测全球公有云服务市场到2020年规模将达到2360亿美元。  在2018年的云预测报告中,分析师写道:“虽然云的影响是全球性的,但只有不到一半的企业使用了公有云平台。2018年,我们将跨过50%应用这一重大的里程碑,
2020年度中国杰出数字化团队奖北京稻香村食品有限公司信息部团队  获奖理由:北京稻香村信息团队非常注重IT治理,目前已经帮助企业形成了完善的组织内管理制度与业务流程。稻香村的信息化团队在构建信息化业务流程的过程中,总是紧紧围绕着前端的操作用户,不断地通过信息技术来创新企业的商业运营模式,持续改善着企业的管理运营。团队以创新作为变革的主旋律,积极学习和吸纳各种新技术、新应用,引用智慧零售门店系统,
机密计算能够增强企业安全性,但是它们应该如何定义?用户需要做哪些工作?  无论是使用内部数据中心的企业还是迁移到云端的企业,安全性始终是最受关注的三大问题之一。应用程序解决方案提供商、机器供应商和云服务提供商都应该竭力提高安全性。  过去,安全措施主要都集中在保护静态数据或对数据进行加密传输上。实际上,在数据库中、在LAN/WAN上和通过5G网络传输时都会对数据进行加密,这也是所有此类系统的关键组
乍看起来,部署网络安全措施和追求创新似乎是相互排斥的。加强安全的战略旨在降低风险,而创新工作则要求敢于承担风险。  企业正在想方设法推出创新的数字业务新项目,同时采取措施保护数据和其他IT资产。因此,他们建立了改善客户体验、获得新收入和新市场机会的途径,同时还加强了安全要求、保护系统和数据并遵守法规。  毕竟,这才是当今业务环境中成功的秘诀:推动变革性举措,以确保宝贵的系统和数据安全的方式,采用云
金融科技公司、软件制造商、電信提供商等企业联合开发了基于区块链的网络,在这一网络上,任何人都可以在线交换数字证书,而且没有无意间泄露任何私人数据的风险。  这些企业是非盈利新组织Sovrin基金会(Sovrin Foundation)的成员,该基金会正在开发“Sovrin网络”,它可以使任何人都能够与网络上的任何实体在全球范围内交换预先验证过的数据。  在线证书类似于我们在自己钱包里存放的那些身份
防火墙通过整合独立设备的功能,接受网络结构调整以及集成外部数据源,以在其做出的决策中加入智能,从而持续发展成为网络安全的主力。由于其中存在着大量的可能性,因此变得难以捉摸。  由于功能非常丰富,导致下一代防火墙难以被充分地熟练掌握,有些重要的功能有时在实践中也会被忽略掉。  以下是IT专业人员应关注的防火墙的新功能。网络分段  网络分段指将单个物理网络划分为多个逻辑网络,其中每个网段的行为就像在自
选择下一代防火墙(NGFW)时,性能、外形和自动化功能是关键的考虑因素。  防火墙已存在多年,并且随着威胁形势的变化,这一技术也在不断发展。以下是一些在选购下一代防火墙(NGFW)中需要注意的技巧,以便选购的防火墙能够满足企业当前和未来的业务需求。  不要信任防火墙性能统计信息  要明白NGFW的运行方式需要的不仅仅是查看供应商的规范或是让一些流量流经它们。当流量负载较轻时,大多数防火墙都能正常运
26%有招聘计划的受访者表示,他们将在未来12个月内寻找有这类技能的人。  Peter Danchak在IT行业有25年的从业经历,过去16年一直在DRC公司工作,目前担任系统管理员一职。多年来,他发现已经有众多企业将越来越多基础设施资产迁移至云环境当中。  Danchak目前主要使用云技术,支持面向云环境的架构整合与工程调整。他表示他通过自学及公司赞助的培訓获得了必要技能——而这些技能让他的简历
最近发生了一件事,一名民族国家的威胁犯罪分子在测试新的恶意软件时,很有可能无意中关闭了中东的一个关键基础设施,这引发了人们对脆弱的工业控制系统(ICS,Industrial Control Systems)难以应对网络新威胁的普遍担忧。很多安全专家认为这一事件预示着将针对ICS发起新一轮破坏性的攻击,并敦促关键基础设施所有者紧急更新其运营技术(OT,Operational Technology)网