基于粗糙集和灰色理论的决策树算法研究

被引量 : 0次 | 上传用户:yanwuhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在决策树分类算法的实际应用中,由于数据集本身经常存在着属性值缺失或包含冗余属性较多的情况,同时现有的决策树分支属性选择方法容易产生过多的规则,这些往往导致生成的决策树规模较大。因此,进一步改进决策树算法,使其更加适合数据挖掘的应用要求,具有重要的理论和现实意义。本文从属性值缺失的填补、属性约简和决策树分支属性选择三方面进行研究。第一,由于基于K近邻算法的属性值缺失填补算法中没有考虑填补后是否会导致数据冲突的现象:对K值的选取需多次尝试,但未必取到最优值;而且有些填补是在整个数据集中进行的,这在实际应用中可能会导致填补的数据出现严重错误。针对上述缺陷,本文利用灰色理论和粗糙集理论相结合得到GRFill(Grey theory Rough set put)属性值缺失填补算法,并实现了平均值填补法和基于欧式距离的最近邻填补法,填补完成后通过根均方误差RMSE (Root Mean Squared Error)的大小及C4.5算法生成的决策树的预测准确率来比较GRFill填补算法与上述两种算法的填补效果。第二,针对传统的基于区分矩阵的属性约简算法的时间及空间复杂度高的缺点进行改进,实现了删除冗余属性且对决策树性能有所改进的RSredu(RoughSet reduct)属性约简算法。第三,利用粗糙集理论定义条件属性与决策属性的分类关系,得到了利用条件属性与决策属性分类一致性大小作为分支属性选择标准的RDTree(RoughSet Decesion Tree)决策树算法。实验结果表明,GRFill填补算法的根均方误差RMSE小于平均值填补法和基于欧式距离的最近邻填补法,分类预测准确率高于平均值填补法和基于欧式距离的最近邻填补法;经过RSredu属性约简算法约简后再进行决策树分类,减小了决策树的规模;利用条件属性与决策属性的分类一致性大小作为分支属性选择标准的RDTree决策树算法生成的决策树叶子数及总节点数少于C4.5算法,准确率及平均运行时间与C4.5算法相近。最后,将上述三点研究结合得到组合优化的RGDTree(RoughSet Gray theory Decesion Tree)决策树分类算法,并在WEKA平台上实现,利用UCI标准数据集和FoodMart2000中的数据样本对RGDTree算法的分类性能进行验证,结果表明,本文所做的研究有利于决策树分类器性能的改进。
其他文献
本文所阐述的“西藏巡礼团”是1934年由国民党中央监察委员、青海藏文研究社社长黎丹所带领的以“沟通汉藏文化、疏导汉藏关系”为目标、公开入藏展开巡礼活动的半官方性质的
本论文致力于研究高校食堂的使用效果及其技术研究,着力为新建高校食堂提供经验和借鉴。从1999年起,我国高校开始了大规模的扩招,高等教育的发展进入了一个高速发展的时期。
二语习得是学习者学习第二语言的心理过程、认知过程和语言过程。受母语等其他因素的影响,二语习得者语言输入和输出能力不平衡的现象较为普遍。模因论是解释文化进化规律的
有车辆数限制的开放式车辆调度问题(m-OVRP)是车辆调度类问题(VRP)的一个新的分支.本文通过多初始解选优、平滑动态的禁忌长度等改进手段,基于遗传算法中变异的思想,设计了改
中职计算机教学是一门实践性和实用性较强的教学学科,主要围绕学生学习计算机的实际应用能力,包括操作技巧、知识掌握等技术性的全方位体验,特别是突出中职计算机的就业导向
苏轼是我国宋代著名的文学家.诗、词、文皆工.诗与黄庭坚并称为"苏黄",开有宋一代诗歌之新风气;词与辛弃疾并称为"苏辛",为豪放词派的创始人;文与欧阳修并称为"欧苏",为唐宋
本文以7部李贺诗日译本中通感表达的译文为研究对象,运用多译本对比的研究方法,试将李贺诗中通感表达的翻译方法分为三种基本类型:同构、异构和缺失。在基本类型的基础上,又
古月轩珐琅彩瓷以其精美绝伦为清皇室专用,号称“清代第一名品”。“古月轩”名称起源扑朔迷离,据传盛行于康乾盛世,在清乾隆朝中后期又忽然销声匿迹,制造者神龙见首不见尾,
日前,由阿里、腾讯、平安保险“三马”参股,估值500亿元的互联网在线保险企业——众安保险披露将对公司98名员工进行股权激励。据《员工持股计划》细节显示,此次股权激励的对象
报纸
新形势下城市基层党建工作要求实现党的组织全覆盖和党的工作全覆盖,运用城市治理的网格化管理手段,将网格化管理的思路、方法运用到城市基层党建工作中,运用"网格化+"手段,