论文部分内容阅读
摘 要:随着信息技术的不断改进与提高,大数据时代已经来临,人工智能被应用到各行各业。各类大数据中心的出现对IT运维的模式提出了新的标准和要求,智能运维凭借无可比拟的优势脱颖而出。本文通过分析运维的发展历程,对比传统运维与智能运维的优劣势,提出了大数据中心的智能运维方案和实现途径。
关键词:智能运维;数据中心;架构
中图分类号: 文献标识码:
Abstract: With the continuous improvement of information technology, the age of big data has arrived, and artificial intelligence has been applied to a variety of industries. The emergence of big data centers puts new standards and requirements on the mode of IT operation and maintenance. AIOps stand out with unparalleled advantages. By analyzing the development history of operation and maintenance and comparing the advantages of traditional operation and maintenance with AIOps, we will put forward the structures and implementations of AIOps of big data center.
Key words: AIOps; Big Data Center; Structures
1 引言
随着IT行业的发展和信息化水平的不断提高,数据中心的规模也在日益扩大,这不仅体现在需维护的服务器数量上,也体现在产生的运维数据量上,单纯依靠投入大量人力进行巡检及监控已不能满足日常运维的需求,这对IT运维的模式提出了新的标准和要求。另一方面,随着大数据时代的到来,人工智能(Artificial Intelligence,AI)技术在各行各业中得到了越来越广泛的应用,智能运维便是将AI技术应用到IT运维领域的实例,借助运维自动化、大数据、桌面虚拟化等技术手段,实现对所有设备的监控,能极大提高IT运维管理效率。
2 智能运维的概念及优势
2.1 基本概念
根據国际上对智能运维的最新定义,智能运维(Artificial Intelligence for IT Operations, AIOps)是ITSM、ITOM和 IT 自动化三大方面的全面融合,自动化处理传统IT运行和维护,以提升运行和维护效率。作为AI、大数据和IT运维融合的产物,智能运维成为现代传统企业数字化转型的必然选择。
2.2 智能运维的优势
(1)传统IT运维存在的问题
传统的IT运维管理模式是被动的,其存在以下三点问题。一是运维成本高。传统运维受限于技术和人力等原因,系统一旦出现故障产生告警后,运维人员需要逐条进行手工排查,不仅要付出大量的人力,还要浪费大量的时间;二是无预警。传统单一的运维模式没有设置全面的系统监控,对于系统即将出现的故障和问题不能及时预判和告警,无法做到防患于未然;三是缺乏快速有效的分析解决工具。面对大量的操作和维护数据,越来越多的运维场景和问题无法用传统的方法来解决,传统运维手段已经不能适应现有大数据环境下的新形势。
(2)智能运维的优势与特点
相比传统运维的模式而言,智能运维具有不可比拟的优势。从技术层面上看,智能运维的优势和特点主要包括以下四个方面。一是“可存储”,可以形成庞大的数据库,可以迅速的对系统内的各类数据数据进行存储、检索和调用;二是“可关联”,以自身庞大的数据库作为支撑可以对存储的数据进行关联分析;三是“可预测”,通过构建数据知识库和自我学习能力,对数据进行对比分析和阈值分析,建立分析预测系统,可以对系统异常等提前告警;四是“可溯源”,针对系统发出的告警和异常状态,可以根据溯源组件实现根源追溯,查看引起异常的数据流和位置,以便快速定位问题根源,实现自动化修复等后续运维工作。
总体来说,智能运维的工作模式优势在于可以通过自我学习实现自动化运维和自动故障判断处理,是集“自我学习、自我监控、自我校验、自我修复”四位一体的运维平台。智能运维的推广和运用将可以有效降低传统IT运维高成本低效率的困境,使运维管理实现“易见、易管、易控”。
3 大数据中心的智能运维建设
3.1 大数据中心的现状及需求
随着大数据时代的到来,数据中心建设的理念也进入一个云时代,越来越多的大数据中心出现在各大企业的建设清单中。第三代以计算机计算为核心的机架式服务器机房的数据中心方兴未艾,第四代以大数据计算为核心的大数据中心已经走上舞台。一个大型的数据中心部署拥有多云的数据基础设施环境,可以提供机房、设计、功能、资源四大服务类型,装机容量均在5000机架以上甚至上万机架,面对如此庞大的容量,大数据中心的运维工作就更加重要了。
当一个数据中心的建设规模越来越大,承载的业务种类和数量越来越多,对于数据的快速处理、高速传输、实时响应等要求不断提高,其面临的问题和挑战也日益增加。
3.2 智能运维的解决方案框架
目前,大数据中心的IT系统具有数据节点多、系统规模大、运行速度快等特点。因此,大数据中心智能运维的落地需要循序渐进,分区域分步骤的进行架构。整个大数据中心的智能运维系统可以分为可以分为五大逻辑板块来进行架构。具体如图1所示。 图1 大数据中心的智能运维系统架构示意图
(1)数据采集存储板块
该板块包含数据采集器和数据存储器。数据采集器采用分布式布局,通过动态化的采集方式对底层的多种不同的运维平台进行数据的收集工作;数据存储器使用My SQL和MongoDB结合的方式,对于数据量小和有稳定结构的配置类数据统一存储在SQL结构化数据库中,而大量的运行数据、日志等具有实时性、不稳定性的的数据均存储到非结构化的数据库中。
(2)数据学习储备板块
该板块将数据采集存储板块的数据进行再整理,分为元数据、状态数据和事件数据三大类进行分门别类,利用自我学习的功能,形成数据知识库。通过该板块的设置,将数据建设变成一个持续的过程,是智能运维的建设重要的一部分。
(3)数据分析处理板块
该板块是智能运维最核心关键的一部分,由数据计算和数据执行两部分组成。数据计算主要是对采集存储的数据进行实时处理分析,检测监控数据的实时变化,对数据汇聚、数据加载、数据异常等问题进行感知分析并提前告警;数据执行则是对部署、执行命令等数据操作控制进行写入操作。
(4)数据决策执行板块
该板块是智能运维的“大脑”,控制整个智能运维的行为。根据前三个板块的采集存储、自我学习和分析处理,根据逻辑判断规则和算法组件的设置形成异常检测、故障预测、止损决策、根因诊断、容量预测等策略库,可以根据整个系统平台出现的需求自动给出运维策略并自动处置,让决策执行过程“可定位、能复用、有针对”。
(5)数据可视化板块
数据可视化板块将分析结果、决策策略等数据通过可视化组件变为简单易懂的图表或图,将数据直观地展现出来,实现数据的可视化、场景化以及实时交互,以帮助非运维人员对数据更好的理解,根据直观的图表或图可以更好的找出包含在海量数据中的规律或者信息。
3.3 智能运维的预期价值与实现途径
智能运维在大数据中心建立起来之后,将产生不可估量的使用价值,其主要IT运维的自动化、智能化实践可以从以下几个方面进行实现。
(1)自动化进行日常数据巡检
作为智能运维最基础的任务就是进行日常的巡检运维工作,每日重复化的巡检工作,看起来简单,但需要定时进行重复执行。智能运维系统通过设定逻辑组件,可以对大数据中心的软硬件环境、设备端口的状态和负载、数据流量和空间使用率等日常巡检工作内容进行自动巡检并生成日志和报告。
(2)自动化进行配置管理
随着大数据中心的运营环境越来越大,采集存储基础组件的管理成为配置管理员的巨大的工作量,尤其是这些组件还在不停的变化和关联。实施智能运维后,对系统的基础组件进行标准化和规范化设置,保证运维工具可以自动从资源环境中提取配置库信息,自动更新到配置库中,最终实现配置项和属性的自动更新。
(3)自动化进行系统故障预判和修复
作为智能运维最突出的价值就是预判和自动故障修复功能。智能运维通过自我学习功能,通过数据库分析、检测等组件联合,可以预判即将面临的问题和威胁,将通过提前告警等对故障进行预判。一般系统故障的出现会经历“发现、诊断、决策、执行”四个阶段。在这四个阶段中,通过前两个阶段(即发现和诊断)结合知识库板块,明确处理决策执行修复命令。
(4)可视化进行数据流展示
作为智能运维的重要一环,在智能运维终端可以通过对采集存储的数据流,通过设定的可视化大数据组件,实现对全网数据的有效识别;对访问关系、流量构成、异常行为等实现可视化。将数据、组件和终端之间的访问关系、会话特征、异常的访问路径、非正常的数据出口、异常的TCP连接等问题以具象的形式展现出来。
(5)自动化进行资源申请调配
智能运维可以利用资源监控的手段有效地监控一组或多组资源指标,并且根据系统资源当前的使用情况进行适当适量的动态伸缩。当资源不足的时候,根据约定的规模比例部署节点并将其添加到当前的运行环境中。当资源利用率很低时,又可以回收资源以避免造成资源的浪费。
4 结束语
综上所述,智能运维基于人工智能的自我学习和深度学习技术,创新了运维模式的构建和实现方式,可以提高大数据爆炸时代的运维工作效率,是未来运维工作的主导方向。目前,部分數据中心已经在智能运维方向上进行了一定的尝试,并且取得了非常好的效果和用户体验。未来,针对不同的应用场景和需求,更好地利用智能化工具关联分析数据、深入挖掘数据的价值将是智能运维的主要研究方向,本项目将结合自身的运维需求,探讨适宜的实现智能运维的技术路线和方案。
参考文献:
[1]钟湘琼.基于云计算的大数据只能运维系统设计.信息通信[J],2016.2
[2]罗砚.基于大数据的信息系统运维智能化研究.邮电设计技术[J],2018(3)
[3]毛开梅.大数据之智能运维系统设计及应用.网络与信息工程[J],2018(14)
[4]刘世发,毕永军.智能化运维的探索与实践[J].金融电子化,2017,08.
[5]李鹏.基于云计算的大数据运维系统的设计与实现[D].天津大学,2017.
[6]刘莹旭.智能运维中心信息集成技术研究[D].上海交通大学,2013.
关键词:智能运维;数据中心;架构
中图分类号: 文献标识码:
Abstract: With the continuous improvement of information technology, the age of big data has arrived, and artificial intelligence has been applied to a variety of industries. The emergence of big data centers puts new standards and requirements on the mode of IT operation and maintenance. AIOps stand out with unparalleled advantages. By analyzing the development history of operation and maintenance and comparing the advantages of traditional operation and maintenance with AIOps, we will put forward the structures and implementations of AIOps of big data center.
Key words: AIOps; Big Data Center; Structures
1 引言
随着IT行业的发展和信息化水平的不断提高,数据中心的规模也在日益扩大,这不仅体现在需维护的服务器数量上,也体现在产生的运维数据量上,单纯依靠投入大量人力进行巡检及监控已不能满足日常运维的需求,这对IT运维的模式提出了新的标准和要求。另一方面,随着大数据时代的到来,人工智能(Artificial Intelligence,AI)技术在各行各业中得到了越来越广泛的应用,智能运维便是将AI技术应用到IT运维领域的实例,借助运维自动化、大数据、桌面虚拟化等技术手段,实现对所有设备的监控,能极大提高IT运维管理效率。
2 智能运维的概念及优势
2.1 基本概念
根據国际上对智能运维的最新定义,智能运维(Artificial Intelligence for IT Operations, AIOps)是ITSM、ITOM和 IT 自动化三大方面的全面融合,自动化处理传统IT运行和维护,以提升运行和维护效率。作为AI、大数据和IT运维融合的产物,智能运维成为现代传统企业数字化转型的必然选择。
2.2 智能运维的优势
(1)传统IT运维存在的问题
传统的IT运维管理模式是被动的,其存在以下三点问题。一是运维成本高。传统运维受限于技术和人力等原因,系统一旦出现故障产生告警后,运维人员需要逐条进行手工排查,不仅要付出大量的人力,还要浪费大量的时间;二是无预警。传统单一的运维模式没有设置全面的系统监控,对于系统即将出现的故障和问题不能及时预判和告警,无法做到防患于未然;三是缺乏快速有效的分析解决工具。面对大量的操作和维护数据,越来越多的运维场景和问题无法用传统的方法来解决,传统运维手段已经不能适应现有大数据环境下的新形势。
(2)智能运维的优势与特点
相比传统运维的模式而言,智能运维具有不可比拟的优势。从技术层面上看,智能运维的优势和特点主要包括以下四个方面。一是“可存储”,可以形成庞大的数据库,可以迅速的对系统内的各类数据数据进行存储、检索和调用;二是“可关联”,以自身庞大的数据库作为支撑可以对存储的数据进行关联分析;三是“可预测”,通过构建数据知识库和自我学习能力,对数据进行对比分析和阈值分析,建立分析预测系统,可以对系统异常等提前告警;四是“可溯源”,针对系统发出的告警和异常状态,可以根据溯源组件实现根源追溯,查看引起异常的数据流和位置,以便快速定位问题根源,实现自动化修复等后续运维工作。
总体来说,智能运维的工作模式优势在于可以通过自我学习实现自动化运维和自动故障判断处理,是集“自我学习、自我监控、自我校验、自我修复”四位一体的运维平台。智能运维的推广和运用将可以有效降低传统IT运维高成本低效率的困境,使运维管理实现“易见、易管、易控”。
3 大数据中心的智能运维建设
3.1 大数据中心的现状及需求
随着大数据时代的到来,数据中心建设的理念也进入一个云时代,越来越多的大数据中心出现在各大企业的建设清单中。第三代以计算机计算为核心的机架式服务器机房的数据中心方兴未艾,第四代以大数据计算为核心的大数据中心已经走上舞台。一个大型的数据中心部署拥有多云的数据基础设施环境,可以提供机房、设计、功能、资源四大服务类型,装机容量均在5000机架以上甚至上万机架,面对如此庞大的容量,大数据中心的运维工作就更加重要了。
当一个数据中心的建设规模越来越大,承载的业务种类和数量越来越多,对于数据的快速处理、高速传输、实时响应等要求不断提高,其面临的问题和挑战也日益增加。
3.2 智能运维的解决方案框架
目前,大数据中心的IT系统具有数据节点多、系统规模大、运行速度快等特点。因此,大数据中心智能运维的落地需要循序渐进,分区域分步骤的进行架构。整个大数据中心的智能运维系统可以分为可以分为五大逻辑板块来进行架构。具体如图1所示。 图1 大数据中心的智能运维系统架构示意图
(1)数据采集存储板块
该板块包含数据采集器和数据存储器。数据采集器采用分布式布局,通过动态化的采集方式对底层的多种不同的运维平台进行数据的收集工作;数据存储器使用My SQL和MongoDB结合的方式,对于数据量小和有稳定结构的配置类数据统一存储在SQL结构化数据库中,而大量的运行数据、日志等具有实时性、不稳定性的的数据均存储到非结构化的数据库中。
(2)数据学习储备板块
该板块将数据采集存储板块的数据进行再整理,分为元数据、状态数据和事件数据三大类进行分门别类,利用自我学习的功能,形成数据知识库。通过该板块的设置,将数据建设变成一个持续的过程,是智能运维的建设重要的一部分。
(3)数据分析处理板块
该板块是智能运维最核心关键的一部分,由数据计算和数据执行两部分组成。数据计算主要是对采集存储的数据进行实时处理分析,检测监控数据的实时变化,对数据汇聚、数据加载、数据异常等问题进行感知分析并提前告警;数据执行则是对部署、执行命令等数据操作控制进行写入操作。
(4)数据决策执行板块
该板块是智能运维的“大脑”,控制整个智能运维的行为。根据前三个板块的采集存储、自我学习和分析处理,根据逻辑判断规则和算法组件的设置形成异常检测、故障预测、止损决策、根因诊断、容量预测等策略库,可以根据整个系统平台出现的需求自动给出运维策略并自动处置,让决策执行过程“可定位、能复用、有针对”。
(5)数据可视化板块
数据可视化板块将分析结果、决策策略等数据通过可视化组件变为简单易懂的图表或图,将数据直观地展现出来,实现数据的可视化、场景化以及实时交互,以帮助非运维人员对数据更好的理解,根据直观的图表或图可以更好的找出包含在海量数据中的规律或者信息。
3.3 智能运维的预期价值与实现途径
智能运维在大数据中心建立起来之后,将产生不可估量的使用价值,其主要IT运维的自动化、智能化实践可以从以下几个方面进行实现。
(1)自动化进行日常数据巡检
作为智能运维最基础的任务就是进行日常的巡检运维工作,每日重复化的巡检工作,看起来简单,但需要定时进行重复执行。智能运维系统通过设定逻辑组件,可以对大数据中心的软硬件环境、设备端口的状态和负载、数据流量和空间使用率等日常巡检工作内容进行自动巡检并生成日志和报告。
(2)自动化进行配置管理
随着大数据中心的运营环境越来越大,采集存储基础组件的管理成为配置管理员的巨大的工作量,尤其是这些组件还在不停的变化和关联。实施智能运维后,对系统的基础组件进行标准化和规范化设置,保证运维工具可以自动从资源环境中提取配置库信息,自动更新到配置库中,最终实现配置项和属性的自动更新。
(3)自动化进行系统故障预判和修复
作为智能运维最突出的价值就是预判和自动故障修复功能。智能运维通过自我学习功能,通过数据库分析、检测等组件联合,可以预判即将面临的问题和威胁,将通过提前告警等对故障进行预判。一般系统故障的出现会经历“发现、诊断、决策、执行”四个阶段。在这四个阶段中,通过前两个阶段(即发现和诊断)结合知识库板块,明确处理决策执行修复命令。
(4)可视化进行数据流展示
作为智能运维的重要一环,在智能运维终端可以通过对采集存储的数据流,通过设定的可视化大数据组件,实现对全网数据的有效识别;对访问关系、流量构成、异常行为等实现可视化。将数据、组件和终端之间的访问关系、会话特征、异常的访问路径、非正常的数据出口、异常的TCP连接等问题以具象的形式展现出来。
(5)自动化进行资源申请调配
智能运维可以利用资源监控的手段有效地监控一组或多组资源指标,并且根据系统资源当前的使用情况进行适当适量的动态伸缩。当资源不足的时候,根据约定的规模比例部署节点并将其添加到当前的运行环境中。当资源利用率很低时,又可以回收资源以避免造成资源的浪费。
4 结束语
综上所述,智能运维基于人工智能的自我学习和深度学习技术,创新了运维模式的构建和实现方式,可以提高大数据爆炸时代的运维工作效率,是未来运维工作的主导方向。目前,部分數据中心已经在智能运维方向上进行了一定的尝试,并且取得了非常好的效果和用户体验。未来,针对不同的应用场景和需求,更好地利用智能化工具关联分析数据、深入挖掘数据的价值将是智能运维的主要研究方向,本项目将结合自身的运维需求,探讨适宜的实现智能运维的技术路线和方案。
参考文献:
[1]钟湘琼.基于云计算的大数据只能运维系统设计.信息通信[J],2016.2
[2]罗砚.基于大数据的信息系统运维智能化研究.邮电设计技术[J],2018(3)
[3]毛开梅.大数据之智能运维系统设计及应用.网络与信息工程[J],2018(14)
[4]刘世发,毕永军.智能化运维的探索与实践[J].金融电子化,2017,08.
[5]李鹏.基于云计算的大数据运维系统的设计与实现[D].天津大学,2017.
[6]刘莹旭.智能运维中心信息集成技术研究[D].上海交通大学,2013.