数据挖掘中判定树算法的研究与优化

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:fky12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是数据挖掘的一个重要方法。数据分类是通过分析训练集数据,产生关于类别的精确描述或模式,这种类描述可以用来对未来的数据进行分类,有着广泛的应用前景。目前常用的分类规则挖掘方法有决策树方法、贝叶斯分类算法、遗传算法和粗集理论等。在上述方法中,决策树算法描述较简单,容易转化成分类规则,但同时存在得不到全局最优解的问题;遗传算法虽然能解决大空间、多峰值和非线性等高复杂度问题,但也存在算法收敛于局部最小值的过早收敛问题。由此,本文提出了一种基于混合遗传模拟退火算法的分类决策树方法(GSDA算法)。GSDA算法将遗传算法引入到已有的分类决策树挖掘算法中,提出了一个新的基于混合遗传模拟的算法。本算法在决策树的编码上,改进了常用的二进制编码方式,采用了决策树直接编码的方式,提高了运算的精确性。与此同时,GSDA算法还引入了混合优化的思想,弥补了常用算法中局部性最优的问题。提出了相应的适应度函数,同时提出了适合本文的剪枝操作,使得挖掘出的规则不但正确性更高,而且整体算法更简洁、更易理解。在随后的初步实验中,本文使用了四个不同的数据库:天气数据库、Cleveland数据库、Heart Disease数据库和Breast Cancer-W数据库,并将GSDA算法的实验结果与经典算法ID3算法进行了比较,获得了较优的结果。
其他文献
语义Web是Web发展的一个新兴方向,自Tim Berners-Lee提出语义Web的概念之后,就一直成为人们讨论与研究的热点。随着语义Web的发展,基于本体的应用也越来越广泛,对本体的研究
随着计算机网络科技的发展和企业信息化程度的不断深入,企业与企业之间、企业内各部门之间、异地的同一企业之间的信息共享与信息交换趋于频繁。但是由于不同企业之间的信息
在互联网行业步入成熟阶段、智能移动终端设备快速普及的今天,地点信息作为连接个体的线上和线下行为的桥梁扮演着越来越重要的角色。对地点信息的研究,有助于认识人群移动行为
Pi-Sigma神经网络是一种具有快速学习能力和强非线性处理能力的高阶神经网络,已应用于模式识别、信号处理、图像处理等智能化信息处理领域。和其它神经网络一样,Pi-Sigma神经
随着信息技术和互联网的发展,庞大的数据库日益增加,为了在海量的数据中获取有价值的信息和知识,数据挖掘应运而生,相应的数据挖掘技术已成为国内外研究的热点,并且得到了广
近年来,随着Internet的迅速发展和普及,在Internet上产生了许多新的应用,例如网络视频会议、网络视频直播、多媒体远程教育、远程会诊等,这使得带宽急剧消耗,带来了网络拥挤
计算机和网络的广泛应用,大大地方便了人们获取信息和交流信息,同时其版权保护也变得越来越重要。而数字水印技术作为一种有效的版权保护手段越来越受到人们的青睐。近年来,
现在,电子商务正被广泛应用。人们只要有一台能上网的电脑,就可以足不出户,从网上浏览各种产品的外观,了解产品的特性,并通过网络来购买自己需要的产品。但是,当前的电子商务网站上
随着商业环境变化越来越快,竞争越来越剧烈,信息系统的交付周期越来越短,信息系统应对变化的要求越来越高。现实需要新的开发方法来加速信息系统的开发、交付周期,提高系统应
随着计算机网络技术与多媒体技术的迅速发展,多媒体数字产品越来越需要一种有效的版权保护方法。作为信息隐藏技术在计算机领域的一项重要应用,数字水印为保护多媒体信息的版