基于决策树分类算法的Web文本分类研究

被引量 : 13次 | 上传用户:davidjts
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的兴起对计算机算法的理论起到了推波助澜的作用,特别是进入新世纪以来,数据挖掘技术在数据库和数据仓库中发挥的作用,以及在搜索引擎方面的巨大成功都使得它成为以后计算机研究的一个重要分支。决策树分类算法的发展也在一定程度上反映了这点。最早的决策树分类算法是CLS方法。继而先后出现了ID3算法、改进ID3算法的C4.5算法、CART算法、SLIQ算法和SPRINT算法等。这些算法理论的出现和改进不断丰富着决策树方法。文本分类是Web数据挖掘中一项非常重要的任务。文本分类过程有文本表示、特征提取、构造分类器、规则抽取这几个重要步骤,特征提取和分类器的构造计算量相对比较大,选取什么方法进行特征提取和用什么方法构造分类器对整个分类过程效率起到很大影响。本文首先对几种经典的决策树分类算法进行研究和分析,并比较算法间的差异。其次对C4.5算法进行改进,利用麦克劳林公式进行替换,并对信息增益率的公式进行化简,得到新的算法公式,此公式不但大大简化了原来复杂的计算公式,而且结果不会产生偏差。C4.5算法得以实施的前提是假设属性间是无关联的,相互独立,但从实际情况看来,这个假设不一定成立,于是引入属性相关性概念和用户兴趣度,分析这两者对算法的影响。C4.5算法的一个优点就是可以处理连续值属性,本文在原来基础上提出一种改进方法,使得处理连续值属性时占用的内存和计算量大大减少,提高了算法的计算效率。把改进的C4.5算法引进到Web文本分类中,使得决策树分类算法的应用得到更大的推广。分析了特征提取中χ~2统计量方法存在的缺点,它不能反映出分词对类别贡献的正负性。本文在原来基础上作出改进,使得分词对类别的贡献更加清晰,利用改进的决策树分类算法构造分类器,最后实现规则抽取。把算法简单的应用于某县开发区OA系统的信息采编中,实验数据表明,在一定程度上减轻了信息采编者的工作量。
其他文献
推拿不当引起职业损伤问题广泛存在,为规避损伤风险,在课堂教学和后期临床教学实践中,适当引入"自我保护"相关教学内容,收到了较好效果。并对教学目标、教学内容、教学设计进
<正>提起英国的食物,好像排不上等级,因为在欧洲,一提美食总会让人想到法国,所以就有了英国食物难吃一说。但事实真是那样吗?你要是到现在的英国,满街的美食保证定会让你大出
<正>刮痧是传统的自然养生疗法之一,它是以中医理论为基础,用器具(牛角、玉石)等在皮肤相关部位刮拭,以达到疏通经络、活血化瘀之目的。与其他治疗手法相比,中医刮痧疗法安全
现代化工业的生产环境与任务为了适应市场的需求越来越复杂多变,为了适应这种变化,需要采用具有可重构性的新型生产设备,作为生产设备之一的机器人也需要具备可重构性,所以可
铁路危险货物需长距离、大吨位异地运输,而危险货物具有易燃、易爆、有毒害、腐蚀性、放射性等特性,一旦发生事故,将损失巨大。为了将损失减少至最低,对铁路危险货物的危害和
在针灸推拿学教育中实施双语教学不仅是培养21世纪新型针灸推拿人才的需要、教育全球化的需要,也是培养从生物医学模式转入生物心理社会医学模式过程中医学新人才的迫切需要
由于中小企业技术创新的外溢性、不确定性、长周期性以及资本市场的不完善,财政应介入中小企业技术创新。针对中小企业技术创新存在的能力不足、资金短缺、人才匮乏、信息不
运用文献资料、问卷调查和专题访谈等方法对处于城市化进程中的广州市萝岗区35所农村中小学体育教师队伍性别比例、学历、年龄、专项、职称、科研能力、工作量、工资待遇、职
在正常教学课时内,实现按摩推拿学课程的双语教学,达到保证专业教学质量,提高专业英语能力的教学目标,需要整体设计双语教学的教学计划。从英语授课内容、课时分配、教学方法