C4.5算法的一种改进及其应用

被引量 : 0次 | 上传用户:fpkneo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的不断发展,人们的生活节奏不断加快,迫切需要从海量的数据中快速提取有用信息的技术,这项技术就是数据挖掘。数据挖掘已成为当今最热门的信息技术之一。C4.5算法是数据挖掘十大经典算法中最经典的算法,在数据挖掘技术中起着非常重要的作用,使用率非常高。C4.5算法属于决策树算法,分类规则以树的形式呈现。C4.5算法改进于ID3算法,它在ID3算法的基础上,用信息增益率代替信息增益作为选取根属性的标准,克服了用信息增益选择属性时偏向选择取值多的属性的不足,能够完成对连续属性的离散化处理。C4.5算法的最大特点是建树规则易于理解,建树者不需要了解任何挖掘对象所在领域的专业知识,并且分类速度快,分类器准确率高。C4.5算法现在已经被广泛应用到经济、工业、医药、农业等各个领域,因此对C4.5算法研究是十分重要的。但是C4.5算法在很多地方存在不足,本文针对C4.5算法在数据冗余时可能导致算法复杂度过大,效率低等问题,对C4.5算法进行改进,并命名为R-C4.5算法。算法的具体改进:计算每个属性中的元素的信息熵,比较同一属性下每个信息熵的值,如果数值相近,再计算元素集合的相似度。如果相似度系数很高,那么说明两个元素性质相同或相近,对两种元素进行合并形成一个新的元素。而相似度的计算采用了改进的Jaccard系数,将两个集合其中的一个集合的每个元素的个数乘以他们两个集合的总元素个数比,这样改进的目的不仅仅简单地比较两个集合元素个数的相近度,而是比较集合中元素所占比例的相近度。通过对C4.5算法的改进,增强算法的预处理机制。改进的原理利用了信息熵属性的约简,将冗余属性剔除,减少了算法的复杂度,从而大大提高了准确度。本文不仅对C4.5算法进行了改进,同时在计算集合相似度时对Jaccard系数进行了改进,使相似度计算的标准不再是集合中元素个数之比,而改为集合中元素比例之比。这样做的目的是避免由于选取的总数量不同,而导致判断错误。
其他文献
目的:比较自控硬膜外镇痛(PCEA)和自控静脉镇痛(PCIA)在胸外科术后患者中的应用效果及护理方法。方法:将126例胸外科手术患者随机分为PCEA组65例和PCIA组61例,比较两组术后VA
目的:探讨品管圈活动在体温单书写持续质量改进方面的应用效果。方法:成立月光圈,通过现状调查、原因分析、设定目标、制定对策、对策实施、效果确认、标准化、检讨与改进等
<正>2008年10月~2009年10月,我们对56例慢性阻塞性肺气肿(COPD)并发呼吸衰竭首次使用无创呼吸机患者的心理进行分析并给予针对性心理护理,效果满意。现报告如下。1临床资料本
长江中下游地区是我国淡水湖泊比较集中的地区 .该地区绝大多数湖泊为浅水湖泊 .所有的城郊湖泊都已经富营养化 ,其他湖泊的营养状况均为中营养 -富营养 ,处于富营养化的发展
目的:探讨无创呼吸机治疗COPD合并Ⅱ型呼吸衰竭的护理方法。方法:将46例COPD患者进行分组研究,每组23例,实验组采取整体护理干预,对照组采取常规护理,比较两组干预前后血气分
随着体验经济时代的到来和主题公园旅游的大热,主题公园游客体验价值越来越引起学术界和实践界人士的关注,如何提高游客体验价值成为增强主题公园竞争力的有效途径。近几年,
中华民族传统文化源远流长,国学文化更是中国传统文化中浓墨重彩的一笔。本文本着将国学文化传承与发展的初衷,积极探索将国学文化内涵与中国传统园林精髓相结合,在适应民众
目的:探讨胸外科新护士职业能力的培养模式。方法:对滨州市三所三级医院89名胸外科新护士采取整群抽样法进行12周培训,并于培训前后采用自行设计的问卷进行统计分析。结果:培
<正>亲情化服务是一种以病人的个体需要、整体感觉、服务效果为宗旨,以优质、便捷、温馨、全方位、多样化为特点的服务模式[1]。护理工作的亲情化服务是以人为本的重要体现,
目前从固态二次原料中回收铱只有用湿法冶金工艺才是切实可行的。为此,铱得到很好的分离,其中贱金属采用选择性溶解。本文研究了与铜或铝生成的铱合金。一般在真空感应炉中即