论文部分内容阅读
摘 要 互联网技术的发展,大大提高了人们获取信息和咨询的灵活度和及时性,上网已经成为人们日常生活中的重要内容,人们通过浏览网站可以享受到娱乐,还能获取自己需要的知识,为了满足用户不断增加的使用需求,各类网站相应的逐渐扩大自己的规模,这样的举措虽然方便了用户更好的体验网站内容,但同时也为网站的日常维护工作提出了新的要求和挑战。文章简要分析决策树算法在网站服务器日志分析中的应用,为如何维护和管理庞大的数据提供可参考的意见。
关键词 网站维护;数据挖掘;决策树;网站服务器日志
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2013)22-0105-01
1 决策树算法分析
1.1 决策树算法概念分析
决策树算法是从机器学习中分类出来的一种分类方法,属于数据挖掘技术的研究范畴,决策树算法首先是对数据进行处理,然后进行可读规则或决策树的计算,该计算是基于归纳算法实现的,在归纳算法计算后,利用已形成的决策树做进一步的数据分析与处理,决策树凭借其先天算法优势在对庞大数据环境中分析中有着广泛的应用。通过以上分析可知,归纳算法是决策树算法中的核心内容,所谓的归纳就是将事物从特殊归结到普通的过程,是从事物的外在特征表现来总结出若干个规律性结论。决策树实质上属于一个分类器,因其数据结构酷似一种二叉树的树结构而得名。在决策树中的各个分枝树都对应一个测试结果,每个非叶结点对应于采样中的一个属性测试,叶子代表一个种类或者是种类的一种分布,数据种类的分类原则由决策树根到叶的路径进行划分,最为常见的决策树归纳算法是基于自上而下递归计算基础的,且其构造的主要元素为训练元组及其相关标号。
1.2 决策树算法应用优点分析
决策树与其他数据挖掘技术相比,有着如下优点,其一就是决策树的算法提供的数据都比较直观易懂,尤其是与神经网络算法相比,再者就是决策树在大规模数据挖掘中的效率相对要高,数据挖掘的过程更为高效,节省了大量的重复操作所消耗的时间。此外,与其他数据挖掘方式不同,决策树算法只对训练较为集中的数据有附加信息的要求,其他数据则不需要附加信息。最后一个也是最为重要的一个优点就是决策树的算法在实际使用时的准确率特别高。
1.3 决策树的算法分类
1)ID3算法。ID3算法是利用信息熵来展开的一种决策树算法,主要通过对属性集的取值来对数据的类型作出判断,ID3算法的核心内容是在决策树的各个节点上事先选择相关的属性,其选择的标准是信息增益,这样就会使得在每次测试时获得最大的信息种类,该算法的优点在于方法简单易操作,运行理论清晰,便于推广,对于大规模的学习问题有着较好的处理效果。
2)SLIQ算法。SLIQ算法在决策树算法中属于一种比较快速的算法,伸缩性较强,不但能够处理离散型数据也能处理连续型数据。SLIQ算法在保留其他技术处理数据精确度的基础上,提高了学习的时间,也就数说SLIQ算法具有更快的运行速度,再者就是SLIQ算法对于所要处理的数据的数量以及属性分类不进行限制,从这个角度上来讲,SLIQ算法可以处理其他算法不能处理的大规模数据分类的情况,从处理数据的侧重点来说,SLIQ算法实质上是提高了数据挖掘技术的分类精度,但是该算法的缺点在于容易受主存储容量的限制,主储存器的容量能够直接影响其数据存储的分类与处理。
2 网络服务器分析中的决策树算法应用探究
2.1 网站维护现状
目前网站维护工作中的主要问题就是在正常环境下,如果网站出现崩溃情况,对于故障的定位分析及其困难,过程非常繁琐,在当代每个网站的服务其中都具备预警功能,所以维护网站工作的开展要以服务器中的预警日志为导向,并在此为基础对服务器进行全面的分析,但在处理器预警日志的分析中应注意,预警日志的产生十分迅速,产生的速率过快是不宜于我们进行故障定位的,因为我们要处理的信息数据中会混杂大量的告警信息,这就对数据挖掘技术的效率提出了较高要求。
2.2 网站服务器日志分析中决策树算法应用探究
在网站服务器日志分析的决策树算计应用过程中,应首先开展数据准备的操作,数据准备操作中又包括数据的选取和数据的预处理两个部分,数据的选取操作要求从系统的多个运行环境中提取告警日志的数据信息并加以收集,为进一步提高数据处理的效率和质量,要再对收集后的数据进行预处理操作,以此实现数据处理精度的有效提升。作为发现数据中包含知识的主要过程,数据预处理的计算精度在一定程度上能够影响到决策精度。在完成数据准备工作后要建立其决策树分类和数据挖掘的对应模型,然后通过决策树在数据挖掘技术中传统的方式来进行数据挖掘。
2.3 决策树模型的评估和验证
决策树模型评估是保证数据取得较高实际使用价值的关键,所谓的模型确定就是利用合格验证证明模型在制定的范围内,按照用户的要求,按照合格的正确率进行模拟筛选。利用模型验证实质上是通过实际的数据转换而来的,通常情况下数据挖掘的结果就是通过模型验证来进行进一步的确认。评估分类器有多种方法,其中准确性较高的是利用保持手段进行分类,该分类方法是通过对已标记数据进行类型划分,并通过将其进一步划分为相交且互补的数据集合,以此实现数据集合的训练和检验,数据集合训练是用来归纳分类模型,评估模型的模拟性能则是在检验集上。训练集与检验集的划分一般都是按照50%的比例来进行分配,总体数据中一半的数据用来构造决策树,另一半数据的功能则主要是对决策树的内容进行类型的划分。在数据训练和检验过程中,也可以采用2/3的数据进行数据训练集的构造,而剩下的1/3用来分类。但是数据保持的计算方法在实际应用中也有着很大局限性,如被标记样本中属于用户训练类型的数据量较少,从用户训练数据角度分析,为选取部分数据进行数据校验,所以以部分数据为基础的模型效能便不如用全部标记样本建立起的数据模型。此外,模型结构的可靠性过于依赖由训练集构成的决策树,如果数量比较少的话,则结果的产生的方差就比较大,相应的准确率就比较低。还有一种常用的方法是交叉验证,交叉验证法则是通过泛化误差,来实现对模型参数的调整,这样就会弥补保持法的缺点。
3 总结语
本文主要介绍了决策树算法的概念以及相关分类,由于篇幅有限只是举例介绍了两种优点较为明显的算法分类,从网站服务器日志分析的实际需求出发,提出了网站日志告警日志分析中决策树算法的应用,网站维护工作是一项动态处理过程,我们要根据网站建设中出现的问题,及时的补充和完善相关算法,这样才能满足用户对网站安全性的需求。
参考文献
[1]张邵晶,于忠龙.浅析数据挖掘的算法与推理方法[M].北京水力研究出版社,2010.
[2]王冬梅.试论数据挖掘技术的研究现状及其特征综述[J].图书与情报,2008(5).
[3]杨展空.现代数据挖掘技术在数据处理故障诊断中的应用研究[M].西安电子科技大学出版社,2013.
[4]廖里奇,余泽,吴渝冬.浅谈数据挖掘和数据库技术在通信业中的应用[J].北京邮电学院学报,2012,15(3):31-45.
关键词 网站维护;数据挖掘;决策树;网站服务器日志
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2013)22-0105-01
1 决策树算法分析
1.1 决策树算法概念分析
决策树算法是从机器学习中分类出来的一种分类方法,属于数据挖掘技术的研究范畴,决策树算法首先是对数据进行处理,然后进行可读规则或决策树的计算,该计算是基于归纳算法实现的,在归纳算法计算后,利用已形成的决策树做进一步的数据分析与处理,决策树凭借其先天算法优势在对庞大数据环境中分析中有着广泛的应用。通过以上分析可知,归纳算法是决策树算法中的核心内容,所谓的归纳就是将事物从特殊归结到普通的过程,是从事物的外在特征表现来总结出若干个规律性结论。决策树实质上属于一个分类器,因其数据结构酷似一种二叉树的树结构而得名。在决策树中的各个分枝树都对应一个测试结果,每个非叶结点对应于采样中的一个属性测试,叶子代表一个种类或者是种类的一种分布,数据种类的分类原则由决策树根到叶的路径进行划分,最为常见的决策树归纳算法是基于自上而下递归计算基础的,且其构造的主要元素为训练元组及其相关标号。
1.2 决策树算法应用优点分析
决策树与其他数据挖掘技术相比,有着如下优点,其一就是决策树的算法提供的数据都比较直观易懂,尤其是与神经网络算法相比,再者就是决策树在大规模数据挖掘中的效率相对要高,数据挖掘的过程更为高效,节省了大量的重复操作所消耗的时间。此外,与其他数据挖掘方式不同,决策树算法只对训练较为集中的数据有附加信息的要求,其他数据则不需要附加信息。最后一个也是最为重要的一个优点就是决策树的算法在实际使用时的准确率特别高。
1.3 决策树的算法分类
1)ID3算法。ID3算法是利用信息熵来展开的一种决策树算法,主要通过对属性集的取值来对数据的类型作出判断,ID3算法的核心内容是在决策树的各个节点上事先选择相关的属性,其选择的标准是信息增益,这样就会使得在每次测试时获得最大的信息种类,该算法的优点在于方法简单易操作,运行理论清晰,便于推广,对于大规模的学习问题有着较好的处理效果。
2)SLIQ算法。SLIQ算法在决策树算法中属于一种比较快速的算法,伸缩性较强,不但能够处理离散型数据也能处理连续型数据。SLIQ算法在保留其他技术处理数据精确度的基础上,提高了学习的时间,也就数说SLIQ算法具有更快的运行速度,再者就是SLIQ算法对于所要处理的数据的数量以及属性分类不进行限制,从这个角度上来讲,SLIQ算法可以处理其他算法不能处理的大规模数据分类的情况,从处理数据的侧重点来说,SLIQ算法实质上是提高了数据挖掘技术的分类精度,但是该算法的缺点在于容易受主存储容量的限制,主储存器的容量能够直接影响其数据存储的分类与处理。
2 网络服务器分析中的决策树算法应用探究
2.1 网站维护现状
目前网站维护工作中的主要问题就是在正常环境下,如果网站出现崩溃情况,对于故障的定位分析及其困难,过程非常繁琐,在当代每个网站的服务其中都具备预警功能,所以维护网站工作的开展要以服务器中的预警日志为导向,并在此为基础对服务器进行全面的分析,但在处理器预警日志的分析中应注意,预警日志的产生十分迅速,产生的速率过快是不宜于我们进行故障定位的,因为我们要处理的信息数据中会混杂大量的告警信息,这就对数据挖掘技术的效率提出了较高要求。
2.2 网站服务器日志分析中决策树算法应用探究
在网站服务器日志分析的决策树算计应用过程中,应首先开展数据准备的操作,数据准备操作中又包括数据的选取和数据的预处理两个部分,数据的选取操作要求从系统的多个运行环境中提取告警日志的数据信息并加以收集,为进一步提高数据处理的效率和质量,要再对收集后的数据进行预处理操作,以此实现数据处理精度的有效提升。作为发现数据中包含知识的主要过程,数据预处理的计算精度在一定程度上能够影响到决策精度。在完成数据准备工作后要建立其决策树分类和数据挖掘的对应模型,然后通过决策树在数据挖掘技术中传统的方式来进行数据挖掘。
2.3 决策树模型的评估和验证
决策树模型评估是保证数据取得较高实际使用价值的关键,所谓的模型确定就是利用合格验证证明模型在制定的范围内,按照用户的要求,按照合格的正确率进行模拟筛选。利用模型验证实质上是通过实际的数据转换而来的,通常情况下数据挖掘的结果就是通过模型验证来进行进一步的确认。评估分类器有多种方法,其中准确性较高的是利用保持手段进行分类,该分类方法是通过对已标记数据进行类型划分,并通过将其进一步划分为相交且互补的数据集合,以此实现数据集合的训练和检验,数据集合训练是用来归纳分类模型,评估模型的模拟性能则是在检验集上。训练集与检验集的划分一般都是按照50%的比例来进行分配,总体数据中一半的数据用来构造决策树,另一半数据的功能则主要是对决策树的内容进行类型的划分。在数据训练和检验过程中,也可以采用2/3的数据进行数据训练集的构造,而剩下的1/3用来分类。但是数据保持的计算方法在实际应用中也有着很大局限性,如被标记样本中属于用户训练类型的数据量较少,从用户训练数据角度分析,为选取部分数据进行数据校验,所以以部分数据为基础的模型效能便不如用全部标记样本建立起的数据模型。此外,模型结构的可靠性过于依赖由训练集构成的决策树,如果数量比较少的话,则结果的产生的方差就比较大,相应的准确率就比较低。还有一种常用的方法是交叉验证,交叉验证法则是通过泛化误差,来实现对模型参数的调整,这样就会弥补保持法的缺点。
3 总结语
本文主要介绍了决策树算法的概念以及相关分类,由于篇幅有限只是举例介绍了两种优点较为明显的算法分类,从网站服务器日志分析的实际需求出发,提出了网站日志告警日志分析中决策树算法的应用,网站维护工作是一项动态处理过程,我们要根据网站建设中出现的问题,及时的补充和完善相关算法,这样才能满足用户对网站安全性的需求。
参考文献
[1]张邵晶,于忠龙.浅析数据挖掘的算法与推理方法[M].北京水力研究出版社,2010.
[2]王冬梅.试论数据挖掘技术的研究现状及其特征综述[J].图书与情报,2008(5).
[3]杨展空.现代数据挖掘技术在数据处理故障诊断中的应用研究[M].西安电子科技大学出版社,2013.
[4]廖里奇,余泽,吴渝冬.浅谈数据挖掘和数据库技术在通信业中的应用[J].北京邮电学院学报,2012,15(3):31-45.