论文部分内容阅读
随着科学技术的不断发展,人们的生活节奏不断加快,迫切需要从海量的数据中快速提取有用信息的技术,这项技术就是数据挖掘。数据挖掘已成为当今最热门的信息技术之一。C4.5算法是数据挖掘十大经典算法中最经典的算法,在数据挖掘技术中起着非常重要的作用,使用率非常高。C4.5算法属于决策树算法,分类规则以树的形式呈现。C4.5算法改进于ID3算法,它在ID3算法的基础上,用信息增益率代替信息增益作为选取根属性的标准,克服了用信息增益选择属性时偏向选择取值多的属性的不足,能够完成对连续属性的离散化处理。C4.5算法的最大特点是建树规则易于理解,建树者不需要了解任何挖掘对象所在领域的专业知识,并且分类速度快,分类器准确率高。C4.5算法现在已经被广泛应用到经济、工业、医药、农业等各个领域,因此对C4.5算法研究是十分重要的。但是C4.5算法在很多地方存在不足,本文针对C4.5算法在数据冗余时可能导致算法复杂度过大,效率低等问题,对C4.5算法进行改进,并命名为R-C4.5算法。算法的具体改进:计算每个属性中的元素的信息熵,比较同一属性下每个信息熵的值,如果数值相近,再计算元素集合的相似度。如果相似度系数很高,那么说明两个元素性质相同或相近,对两种元素进行合并形成一个新的元素。而相似度的计算采用了改进的Jaccard系数,将两个集合其中的一个集合的每个元素的个数乘以他们两个集合的总元素个数比,这样改进的目的不仅仅简单地比较两个集合元素个数的相近度,而是比较集合中元素所占比例的相近度。通过对C4.5算法的改进,增强算法的预处理机制。改进的原理利用了信息熵属性的约简,将冗余属性剔除,减少了算法的复杂度,从而大大提高了准确度。本文不仅对C4.5算法进行了改进,同时在计算集合相似度时对Jaccard系数进行了改进,使相似度计算的标准不再是集合中元素个数之比,而改为集合中元素比例之比。这样做的目的是避免由于选取的总数量不同,而导致判断错误。