多变量决策树在高维代价敏感数据挖掘中的研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:sunlang110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和数据挖掘技术的发展,数据仓库中的数据变得越来越复杂。数掘挖掘技术己经成为计算机界新的研究热点之一,被应用在许多领域来处理各种数掘。在现实应用中,存在很多高维代价敏感数据。代价敏感数据挖掘研究在国外发展很快,是数据挖掘领域的一个热点问题,己有一些成型的算法和模型,而在国内发展相对滞后。因此,现阶段研究代价敏感数据挖掘对数据挖掘技术有着一定的现实意义。而数据的维度是影响各种挖掘算法性能的一个重要的因素,高维数据在很多代价敏感问题中也很常见,所以研究高维代价敏感数据挖掘是非常必要的。本文的研究工作就主要围绕高维代价敏感数据挖掘问题展开。 对高维数据的处理,也就是降维,一直都是数据挖掘研究中的一个热点。降维是通过将数据点映设到更低维的空间上以寻求数据的紧凑表示的一种技术,这种低维空间的紧凑表示将有利于对数据的进一步处理。一般的降维处理将数据集的各个属性看成是彼此独立的,对每个属性进行评价,从中找出那些对数据挖掘作用大的属性,去掉那些作用不大的属性,从而实现降维:但是,却忽略了属性之间的相关性。 本文围绕着高维代价敏感数据的数据挖掘问题,做了一些研究工作,取得了一些有特色的成果和创新: 1.本文将统计分析中的主成分分析用到降维分析中,研究了基于主成分分析的多变量决策树模型。这种方法不仅可以降低数据集的维度,而且考虑了成分之间的相关性,在降维的同时,有效的保留了属性之间的相关性,使降维处理后的数据更有效。 2.区别于普通的数据挖掘算法,本文在挖掘过程中,引入了代价函数,考虑了误分类代价,实现了一个基于多变量决策树的代价敏感数据挖掘算法PCAmetacost。 3.完成了一个基于PCAmetacost算法的邮政储蓄数据挖掘算法子系统的设计和实现,并在此基础上,选用了实际数据,对算法做了验证。 可以验证,经过降维处理和引入代价函数后的算法比一般算法在性能上有了一定的提高,特别是对于误分代价高的类的分类正确性有较大提高。本文另外选取UCI数据集中的三个数据集对算法进行了进一步验证。实验证明,基于主成分分析的代价敏感算法和一般的代价敏感算法相比在性能上有了一定的提高。
其他文献
对于每一个工程来说,工程造价管理是工程建设的重要任务之一.想要将工程造价进行精细化管理并在各行各业中应用,就要对其技术进行提升.通过相应的技术保障来使工程造价精细化
城市是人的城市,也是无数绿植的城市.如果我们不想生活在一篇毫无生气的钢铁灰色中,就一定要做好绿植的养护管理.城市的绿化作为衡量现代城市风貌的关键要素,其养护管理水平
对于一个企业来说,设备的良好十分重要.它决定了企业的生产能力,产品质量以及产品成本都有着重要的影响,也很大程度上限制了企业的继续发展,现代社会设备的管理问题已经得到