数据挖掘中决策树分类算法的研究与改进

被引量 : 0次 | 上传用户:gaolianglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类技术是数据挖掘领域中一种非常重要的研究方法。近几十年来,信息技术的高速发展造就了新一代数据的出现,而这一类数据都有着相似的特性,即高速的、高维的、连续的、动态的、快速变化的、海量的数据集合。如何有效合理利用这些庞大复杂的数据让其为我们服务,成为数据挖掘领域中分类技术要解决的问题。面对这些高维、连续的、动态的复杂数据,传统的分类算法已不能够有效的对这些数据进行分类处理。因此,要进行分类就必须针对现有分类算法的缺点进行研究,针对分类算法的缺点提出改进,使改进的分类算法能更好的处理复杂数据。针对现有的决策树分类算法的不足,本文从以下几个方面进行改进。首先针对决策树分类算法处理连续属性数据时分类准确性不足的缺点,本文给出了一种BMIC离散化算法的改进算法—New-BMIC离散化算法,该离散化算法能够改善原有BMIC离散化算法在离散化合并的过程中模糊合并的不足,精确离散区间数,达到更好的离散化效果,提高对连续属性的分类精度;其次,针对现有决策树分类算法在处理属性选择时过度拟合、计算效率低下问题,本文给出了一种新的属性选择标准—方差规约,该方法是根绝方差的计算方式来衡量决策树拆分标准,从理论上该方法替代了对数的计算,提高了属性选择标准的计算效率,整体上可以降低决策树分类算法的时间复杂度,使其在应用领域上可以达到及时性、准确性;最后,将属性选择标准和新的离散化算法两个部分进行组合,使改进后决策树分类算法能够有效处理连续属性数据,同时也能减少过度拟合和提高决策树整体的分类效率。最后通过实验验证了改进算法的有效性和正确性。
其他文献
我国加入世界贸易组织之后,对外贸易面临着更为激烈的竞争。虽然我国拥有廉价劳动力的优势,劳动密集型产品出口迅速增长,但是出口产品的技术含量不高,技术资本密集型产品对外
正确认识财政补贴的经济功能崔满红财政补贴作为直接资助企业或居民个人的国民收入再分配手段,是世界各国干预国民经济、调节社会财富分配的手段之一。但是,在改革时期如何正确
多边贸易体制运行五十多年来,随着经济全球化和贸易自由化进程的不断加速,传统的关税、配额、许可证等贸易壁垒不断弱化,而以技术性贸易壁垒为主的新贸易保护措施却日益盛行,
民众运动包括农民运动、工人运动、青年运动、妇女运动等等,囊括了社会的各个阶层。1924年国民党改组,树立了“以党治国”的施政理念,也将自己标榜为“全民”之党,并多次表示
目的:观察头、体针联合应用分期治疗中风病后瘫痪(软瘫期、痉挛期)的临床疗效,初步探寻一种针刺治疗中风相对较为规范、系统的方法。方法:符合中风诊断标准且按Brunnstrom评测
现金股利分配是上市银行的重要财务管理活动,合理分配现金股利对上市银行至关重要。基于2009年至2013年上海和深圳两个证券交易所上市的16家银行的数据,从上市银行的盈利能力
在环境与收益之间进行考量这便产生了环境会计。环境会计对现行会计的积极影响表现在它改变了现行会计的成本观念、极大丰富了现行会计要素的内容、改变了现行会计的计量模式
中等职业教育是当代教育的一个重要组成部分,是工业化和生产社会化、现代化的重要支柱之一。我国正处于经济腾飞、产业结构调整阶段,需要大批直接在生产、服务、技术和管理第
根据地方政府债务理论和中国现实,结合空间经济学的理论启示,本文在对地方政府债务和影子银行规模测算的基础上,采用动态空间杜宾模型实证检验了影子银行对地方政府债务增长
实证研究发现:经济型酒店顾客满意度影响因子的显著性按其影响程度大小排列,依次是便利程度、安全卫生、价值感知和环境设施。在具体因子影响度方面,便利程度是影响经济型酒