论文部分内容阅读
摘要:数据挖掘是一个知识发现的过程,具体是指通过各种算法在现有信息当中发现规律或找到有用信息。运营商的网络运维数据分析工作从本质上来讲也是一个数据挖掘的过程,数据挖掘技术的应用使网络运维数据分析工作更加准确、高效。该文先对数据挖掘进行介绍,然后讲数据挖掘在网络运维数据分析中的具体应用。
关键词:数据挖掘;网络运维;数据分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)18-0027-02
网络运维是网络通信稳定和高效运营的基础以及重要保障。近些年来,随着通信网络工程的高速发展以及技术的日趋成熟,尤其是移动网络的宽度提速、网络升级以及终端职能的普及等,极大地改变着网络运行的支撑手段和功能。运行商在网络运维中,面对大量的网络运行信息要及时准确的进行分析;目前,随着信息化的快速发展,运营商获取网络技术及信息信息量越来越大、能力越来越强,但目前信息化呈现膨胀趋势,复杂度也大大增加,仅靠传统的网络运行人工分析已经远远不能满足人类的需要,而数据挖掘技术,则是将数据从纷繁芜杂的网络信息中将人类有用的信息挖掘出来供人类使用,是一种智能数据信息技术。
1数据挖掘简介
当今社会是一个信息充分发展和信息爆炸的社会,各行各业都需要用到大量数据,人类对信息也越来越重视。目前,数据挖掘技术已经在一些领域得到技术推广和应用。如在炒股软件、气象信息分析、医疗诊断、统计数据分析、审计审查等方面,数据挖掘技术的应用都已经展开和应用。目前,数据挖掘技术已经在一些有需求的企事业单位得到应用。
1.1数据挖掘概念
数据挖掘技术,就是从大量杂乱无章的数据中,找到某些有用信息或者规律的运算过程。数据挖掘技术涉及的计算方法较多,如统计学、数据库等多个领域的人工智能知识和技术理论,展开工作是依靠的各种运算方法。数据挖掘主要是利用了以下思想:来自统计学领域的假设估计和抽样检测,来自人工智能领域的建模技术、搜索算法、进化计算、可视化信息检索等,这些方法在处理海量信息时的作用是非常关键的。
1.2数据挖掘的流程
步骤有以下四步:一是信息收集。信息收集就是在海量的数据源中,根据确定的数据对象,抽象出某个信息的特征,然后选择信息收集策略对数据进行广泛的搜集整理,存入数据中。对于众多的数据来说,选择一个合适的数据储存办法是非常关键的。第二步是数据的集成。把得到的不同来源和特征的数据利用逻辑或者物理的关系进行有效的集中,从而为数据挖掘开展提供符合决策者要求的各类信息和数据。第三步,数据挖掘。选择合适的工具,利用规则推理、决策树、统计方法等,得出对人类有用的分析信息。第四步,结果展示。聘请专家对挖掘出的数据进行验证正确性,然后将数据挖掘得来的信息和结果,通过某些传输渠道,以可视化的形式展示给用户。
1.3数据挖掘的功能
数据挖掘技术的功能有五个方面的作用。一是趋势和行为预测,对某一信息、事件或者行为的数据进行充分的挖掘和分析,可以对这个事件或者信息发展趋势作出科学的预测。如一些证券公司的软件就是如此。二是关联分析,是指可以让每个学员在自己的电脑上建立虚拟处理系统,并联系硬盘分区、格式化以及安装程序等,以便让每个学员的母机硬件系统与其他学员之间的软硬件系统分割开来,以防治病毒感染等。
2数据挖掘在网络运维数据分析中的应用
从某种意义上来说,数据挖掘技术与数据网络运营技术的本质类似,因此在现有网络运行数据基础上拓展和建立数据挖掘技术的一件可行性强且难度较小的事情,但从网络运维数据到数据挖掘技术的改变则需要更加注意数据的运用。数据挖掘的算法多种多样,每一种算法则对应一种数据类型,目前为止还没有适应性很广的算法问世。在数据挖掘实际应用中,由于数据类型有多种,因此我们需要根据数据类型进行综合选择,采样多种多样的方法对数据进行分析和挖掘。为了追求数据挖掘的可靠性和准确性,需要对现有的挖掘技术算法进行改进,甚至创造出更多的算法,来适应不同的数据类型。目前在网络运维中,数据挖掘分析技术经常使用的算法主要有两种:关联规则算法和决策树算法。
2.1决策树算法
决策树在机器学习中是一种数据模型,是利用树形结构来表示一些决策的附加概率结果,是直观的展示统计概率的分析办法,是代表这两个对象之间的相互对应和映射关系。决策树中的每个节点表示要计算的对象,每个分叉表示一个对象潜在或者可能的属性值;而每个节点则表示从根节点到叶节点中对象路径的值。决策树一般包含决策、机会和总结点三个节点。
决策树生成需要分三个步骤。第一步,特征选择。从众多数据中选择一个特征作为当前对象的节点分裂标准,这些选择特征有着不同的评估方式,从而产生了各不相同的决策树算法。第二步,决策树生成。根据特征评估标准从上至下生成子节点直到决策树停止增长位置。第三步,剪枝。决策树容易生成过多过繁,需要通过技术手段去除掉多余的部分,缩小决策树的规模,精简流程等。决策树最重要的作用就是预判,根据数据树决策模型进行可能表现形式和发展趋势的预判。得出的预判,各种相关部门或者运营商就可以根据预判结果做好风险防范工作。决策树算法具有以下优点:适合用于离散型的数据,即数值型数据,从而提出一些蕴含的规则和算法。决策树计算简单、使用效率高、很容易根据算法特征构造出容易理解的规则。但决策树算法也存在处理缺失数据难度大、数据集中性属性易忽略、过多拟合等问题,值得高度重视。
2.2关联规则算法应用
关联规则是指多个数据库变量之间取值蕴含的一些潜在规律性,目前多应用在网络故障分析上。网络故障包含很多计算机学科知识,数据挖掘中的关联规则正是在网络故障规律性出现的基础上进行的挖掘。使用关联规则进行挖掘时,可以选择故障信息处理数据库、网络运行信息数据库等为挖掘对象,结合要达到的任务目标,改进挖掘办法,在充分分析规律的基础上,就有可能发现故障发生时的数据网络参数、网络设备型号以及故障发生的地点和时间等某些相关性的规律性,以便为及时迅速有效的排除故障提供技术指导。另外,关联规则还在故障预警机制上有广泛的应用,尤其是对未知的故障,能够预测故障发展趋势,做出科学的预测,从而找到内在规律性,以便提前遏制或者在其达到最大危害性之前制定相应的防控机制,以便减少网络故障的危害性和发生率。
3结束语
数据挖掘技术可以解决网络运维数据分析中的信息数量大、实效高等要求,可以在有效的时间内,为决策者得到可靠性强的信息数据提供支持,并作出科学的决策。同时,数据挖掘技术与网络运维数据分析工作有着交高的契合度,是网络数据运维分析的一种高效补充和运用。因此,將数据挖掘运用到网络运维数分析中,是方便、快捷和高效的。随着社会计算机技术的不断进步以及信息的不断发展,数据挖掘技术也将会不断成熟并在网络运维数据分析中得到更大的应用和发挥,现代网络将会更加稳定和安全。
关键词:数据挖掘;网络运维;数据分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)18-0027-02
网络运维是网络通信稳定和高效运营的基础以及重要保障。近些年来,随着通信网络工程的高速发展以及技术的日趋成熟,尤其是移动网络的宽度提速、网络升级以及终端职能的普及等,极大地改变着网络运行的支撑手段和功能。运行商在网络运维中,面对大量的网络运行信息要及时准确的进行分析;目前,随着信息化的快速发展,运营商获取网络技术及信息信息量越来越大、能力越来越强,但目前信息化呈现膨胀趋势,复杂度也大大增加,仅靠传统的网络运行人工分析已经远远不能满足人类的需要,而数据挖掘技术,则是将数据从纷繁芜杂的网络信息中将人类有用的信息挖掘出来供人类使用,是一种智能数据信息技术。
1数据挖掘简介
当今社会是一个信息充分发展和信息爆炸的社会,各行各业都需要用到大量数据,人类对信息也越来越重视。目前,数据挖掘技术已经在一些领域得到技术推广和应用。如在炒股软件、气象信息分析、医疗诊断、统计数据分析、审计审查等方面,数据挖掘技术的应用都已经展开和应用。目前,数据挖掘技术已经在一些有需求的企事业单位得到应用。
1.1数据挖掘概念
数据挖掘技术,就是从大量杂乱无章的数据中,找到某些有用信息或者规律的运算过程。数据挖掘技术涉及的计算方法较多,如统计学、数据库等多个领域的人工智能知识和技术理论,展开工作是依靠的各种运算方法。数据挖掘主要是利用了以下思想:来自统计学领域的假设估计和抽样检测,来自人工智能领域的建模技术、搜索算法、进化计算、可视化信息检索等,这些方法在处理海量信息时的作用是非常关键的。
1.2数据挖掘的流程
步骤有以下四步:一是信息收集。信息收集就是在海量的数据源中,根据确定的数据对象,抽象出某个信息的特征,然后选择信息收集策略对数据进行广泛的搜集整理,存入数据中。对于众多的数据来说,选择一个合适的数据储存办法是非常关键的。第二步是数据的集成。把得到的不同来源和特征的数据利用逻辑或者物理的关系进行有效的集中,从而为数据挖掘开展提供符合决策者要求的各类信息和数据。第三步,数据挖掘。选择合适的工具,利用规则推理、决策树、统计方法等,得出对人类有用的分析信息。第四步,结果展示。聘请专家对挖掘出的数据进行验证正确性,然后将数据挖掘得来的信息和结果,通过某些传输渠道,以可视化的形式展示给用户。
1.3数据挖掘的功能
数据挖掘技术的功能有五个方面的作用。一是趋势和行为预测,对某一信息、事件或者行为的数据进行充分的挖掘和分析,可以对这个事件或者信息发展趋势作出科学的预测。如一些证券公司的软件就是如此。二是关联分析,是指可以让每个学员在自己的电脑上建立虚拟处理系统,并联系硬盘分区、格式化以及安装程序等,以便让每个学员的母机硬件系统与其他学员之间的软硬件系统分割开来,以防治病毒感染等。
2数据挖掘在网络运维数据分析中的应用
从某种意义上来说,数据挖掘技术与数据网络运营技术的本质类似,因此在现有网络运行数据基础上拓展和建立数据挖掘技术的一件可行性强且难度较小的事情,但从网络运维数据到数据挖掘技术的改变则需要更加注意数据的运用。数据挖掘的算法多种多样,每一种算法则对应一种数据类型,目前为止还没有适应性很广的算法问世。在数据挖掘实际应用中,由于数据类型有多种,因此我们需要根据数据类型进行综合选择,采样多种多样的方法对数据进行分析和挖掘。为了追求数据挖掘的可靠性和准确性,需要对现有的挖掘技术算法进行改进,甚至创造出更多的算法,来适应不同的数据类型。目前在网络运维中,数据挖掘分析技术经常使用的算法主要有两种:关联规则算法和决策树算法。
2.1决策树算法
决策树在机器学习中是一种数据模型,是利用树形结构来表示一些决策的附加概率结果,是直观的展示统计概率的分析办法,是代表这两个对象之间的相互对应和映射关系。决策树中的每个节点表示要计算的对象,每个分叉表示一个对象潜在或者可能的属性值;而每个节点则表示从根节点到叶节点中对象路径的值。决策树一般包含决策、机会和总结点三个节点。
决策树生成需要分三个步骤。第一步,特征选择。从众多数据中选择一个特征作为当前对象的节点分裂标准,这些选择特征有着不同的评估方式,从而产生了各不相同的决策树算法。第二步,决策树生成。根据特征评估标准从上至下生成子节点直到决策树停止增长位置。第三步,剪枝。决策树容易生成过多过繁,需要通过技术手段去除掉多余的部分,缩小决策树的规模,精简流程等。决策树最重要的作用就是预判,根据数据树决策模型进行可能表现形式和发展趋势的预判。得出的预判,各种相关部门或者运营商就可以根据预判结果做好风险防范工作。决策树算法具有以下优点:适合用于离散型的数据,即数值型数据,从而提出一些蕴含的规则和算法。决策树计算简单、使用效率高、很容易根据算法特征构造出容易理解的规则。但决策树算法也存在处理缺失数据难度大、数据集中性属性易忽略、过多拟合等问题,值得高度重视。
2.2关联规则算法应用
关联规则是指多个数据库变量之间取值蕴含的一些潜在规律性,目前多应用在网络故障分析上。网络故障包含很多计算机学科知识,数据挖掘中的关联规则正是在网络故障规律性出现的基础上进行的挖掘。使用关联规则进行挖掘时,可以选择故障信息处理数据库、网络运行信息数据库等为挖掘对象,结合要达到的任务目标,改进挖掘办法,在充分分析规律的基础上,就有可能发现故障发生时的数据网络参数、网络设备型号以及故障发生的地点和时间等某些相关性的规律性,以便为及时迅速有效的排除故障提供技术指导。另外,关联规则还在故障预警机制上有广泛的应用,尤其是对未知的故障,能够预测故障发展趋势,做出科学的预测,从而找到内在规律性,以便提前遏制或者在其达到最大危害性之前制定相应的防控机制,以便减少网络故障的危害性和发生率。
3结束语
数据挖掘技术可以解决网络运维数据分析中的信息数量大、实效高等要求,可以在有效的时间内,为决策者得到可靠性强的信息数据提供支持,并作出科学的决策。同时,数据挖掘技术与网络运维数据分析工作有着交高的契合度,是网络数据运维分析的一种高效补充和运用。因此,將数据挖掘运用到网络运维数分析中,是方便、快捷和高效的。随着社会计算机技术的不断进步以及信息的不断发展,数据挖掘技术也将会不断成熟并在网络运维数据分析中得到更大的应用和发挥,现代网络将会更加稳定和安全。