论文部分内容阅读
随着数据库和数据挖掘技术的发展,数据仓库中的数据变得越来越复杂。数掘挖掘技术己经成为计算机界新的研究热点之一,被应用在许多领域来处理各种数掘。在现实应用中,存在很多高维代价敏感数据。代价敏感数据挖掘研究在国外发展很快,是数据挖掘领域的一个热点问题,己有一些成型的算法和模型,而在国内发展相对滞后。因此,现阶段研究代价敏感数据挖掘对数据挖掘技术有着一定的现实意义。而数据的维度是影响各种挖掘算法性能的一个重要的因素,高维数据在很多代价敏感问题中也很常见,所以研究高维代价敏感数据挖掘是非常必要的。本文的研究工作就主要围绕高维代价敏感数据挖掘问题展开。
对高维数据的处理,也就是降维,一直都是数据挖掘研究中的一个热点。降维是通过将数据点映设到更低维的空间上以寻求数据的紧凑表示的一种技术,这种低维空间的紧凑表示将有利于对数据的进一步处理。一般的降维处理将数据集的各个属性看成是彼此独立的,对每个属性进行评价,从中找出那些对数据挖掘作用大的属性,去掉那些作用不大的属性,从而实现降维:但是,却忽略了属性之间的相关性。
本文围绕着高维代价敏感数据的数据挖掘问题,做了一些研究工作,取得了一些有特色的成果和创新:
1.本文将统计分析中的主成分分析用到降维分析中,研究了基于主成分分析的多变量决策树模型。这种方法不仅可以降低数据集的维度,而且考虑了成分之间的相关性,在降维的同时,有效的保留了属性之间的相关性,使降维处理后的数据更有效。
2.区别于普通的数据挖掘算法,本文在挖掘过程中,引入了代价函数,考虑了误分类代价,实现了一个基于多变量决策树的代价敏感数据挖掘算法PCAmetacost。
3.完成了一个基于PCAmetacost算法的邮政储蓄数据挖掘算法子系统的设计和实现,并在此基础上,选用了实际数据,对算法做了验证。
可以验证,经过降维处理和引入代价函数后的算法比一般算法在性能上有了一定的提高,特别是对于误分代价高的类的分类正确性有较大提高。本文另外选取UCI数据集中的三个数据集对算法进行了进一步验证。实验证明,基于主成分分析的代价敏感算法和一般的代价敏感算法相比在性能上有了一定的提高。