论文部分内容阅读
数据挖掘的兴起对计算机算法的理论起到了推波助澜的作用,特别是进入新世纪以来,数据挖掘技术在数据库和数据仓库中发挥的作用,以及在搜索引擎方面的巨大成功都使得它成为以后计算机研究的一个重要分支。决策树分类算法的发展也在一定程度上反映了这点。最早的决策树分类算法是CLS方法。继而先后出现了ID3算法、改进ID3算法的C4.5算法、CART算法、SLIQ算法和SPRINT算法等。这些算法理论的出现和改进不断丰富着决策树方法。文本分类是Web数据挖掘中一项非常重要的任务。文本分类过程有文本表示、特征提取、构造分类器、规则抽取这几个重要步骤,特征提取和分类器的构造计算量相对比较大,选取什么方法进行特征提取和用什么方法构造分类器对整个分类过程效率起到很大影响。本文首先对几种经典的决策树分类算法进行研究和分析,并比较算法间的差异。其次对C4.5算法进行改进,利用麦克劳林公式进行替换,并对信息增益率的公式进行化简,得到新的算法公式,此公式不但大大简化了原来复杂的计算公式,而且结果不会产生偏差。C4.5算法得以实施的前提是假设属性间是无关联的,相互独立,但从实际情况看来,这个假设不一定成立,于是引入属性相关性概念和用户兴趣度,分析这两者对算法的影响。C4.5算法的一个优点就是可以处理连续值属性,本文在原来基础上提出一种改进方法,使得处理连续值属性时占用的内存和计算量大大减少,提高了算法的计算效率。把改进的C4.5算法引进到Web文本分类中,使得决策树分类算法的应用得到更大的推广。分析了特征提取中χ~2统计量方法存在的缺点,它不能反映出分词对类别贡献的正负性。本文在原来基础上作出改进,使得分词对类别的贡献更加清晰,利用改进的决策树分类算法构造分类器,最后实现规则抽取。把算法简单的应用于某县开发区OA系统的信息采编中,实验数据表明,在一定程度上减轻了信息采编者的工作量。