数据挖掘算法优化研究与应用

被引量 : 0次 | 上传用户:cs19890126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代社会的高速发展,各种各样的信息以及数据呈现爆炸式的增长,积累的信息和数据越来越多。这些存放在媒介中的海量数据,在没有外部工具的帮助下,人们很难从这些巨大的数据量中找到有用的信息,这些数据将成为垃圾数据。数据挖掘技术的出现,很好地解决了这个问题。数据挖掘技术可以从大量的数据中分析学习数据中对用户有用的模式和规则,利用这些学习到的模式和规则,当有新的样本数据的时候,可以根据已有的模式和规则来预测样本数据可能的特性。数据挖掘分类是数据挖掘的重要步骤之一,而在数据挖掘分类算法中,决策树分类算法是数据挖掘中应用较广的一种分类算法,它主要有ID3分类算法和C4.5分类算法,ID3有着简单易操作的优点,但也有着偏向于处理小数据集,以及只能处理离散属性的缺点,C4.5算法可以很好的弥补ID3算法对连续属性的处理不足的缺点,但C4.5算法同样有着处理增量学习和大数据量问题的不足。解决决策树算法的增量学习问题就是本文研究的切入点。本文主要对数据挖掘中的分类算法进行详细的介绍和描述,然后将分类算法和数据挖掘增量学习技术相结合,提出了一种增量式决策树算法来解决决策树经典算法的增量学习问题,并对该算法进行了实验数据分析。针对数据挖掘中常见的分类算法,包括:决策树分类算法、最近邻居算法和神经网络这三种最常见分类算法,进行了详细的介绍和描述,并对这三种算法的分类性能进行了比较研究。本文选取决策树分类算法中ID3算法和C4.5算法进行详细的研究,详尽的介绍了这两种分类算法的基本步骤,包括决策树生成和决策树剪枝的基本步骤并列举实例来演示算法的原理。同时分析了ID3算法和C4.5算法的优缺点;最后,根据前面对ID3算法和C4.5算法的性能和优缺点分析,综合贝叶斯分类算法的增量学习特性,提出了一种增量式决策树算法,并通过分析实验数据,该算法很好地解决了决策树算法的增量学习问题。
其他文献
目的探讨关节镜下半月板部分切除术后早期康复护理的效果。方法将116例关节镜下半月板部分切除术后患者随机分为对照组和观察组各58例。对照组术后行常规护理,观察组术后早期
股利政策一直是学者们研究的焦点问题,半个世纪以来,西方的股利政策研究得到了极大地发展和完善。在我国投资者保护环境较弱,上市公司股权结构较为集中,控制方式比较复杂的背景下
分析了山区高速公路隧道交通的特点,给出了山区高速公路隧道交通异常事件的分类,提出了隧道交通异常事件预警、检测与管理系统设计方案,旨在降低山区高速公路隧道交通异常事
如今,盈利信息不再单纯依据企业会计准则进行披露,许多公司开始选择备考盈利披露模式,因此基于当前中国的现状,以信息披露理论、投资判断理论为基础,采用实验设计的方法,研究盈利披
随着互联网的普及和中国经济的快速发展,人们的消费观念也随之发生变化,网络购物受到越来越多的关注并成为一种时尚。大学生作为伴随网络成长的一代深受其影响,对网络更加了解且
音乐是一种用来表达人们的感情,反映社会生活的声音艺术,也是最能即时打动人的艺术形式之一。人类创造音乐,记录音乐,享受音乐。信息技术的飞速发展使得网络资源的信息量不断
研究了葡萄籽多酚(GSP)对高脂膳食小鼠降血脂以及体外抗氧化功能的影响。结果表明,葡萄籽多酚具有一定的降血脂功能,且在体外具有较强的抗脂质过氧化的功能。
超临界水氧化法是一种很有前途的废水处理方法.介绍了超临界水的性质、超临界水氧化技术的原理及在废水处理中的应用,并对该技术存在的问题和发展前景进行了探讨.
在保留地区电网的省级电力系统的等值计算基础上,建立了等值电网的RTDS模型。通过开展RTDS模型建立、潮流计算、系统故障仿真等初步应用研究,论证了该模型的正确性和可行性。