论文部分内容阅读
距离是科学研究与工程技术领域中使用非常广泛的一种度量,通常被用作衡量两个个体间的相似性,如,聚类分类中的相似性可以用距离来度量;图像匹配中的匹配度可以用距离描述;信息安全中的过滤准则也可以距离来刻画等等。从公元三世纪创立的欧式几何至今,距离计算方法的发展十分缓慢。随着电子商务的高速发展,数据挖掘的热潮再次席卷而来,研究一种新的能够克服现有距离相似性缺点并更适合于数据挖掘领域的距离具有较大的意义。本文以数据挖掘为背景,研发了一种新的更能体现数据间相关性的相似性计算方法,并分别将其应用于传统数据挖掘中的缺损数据补值、新兴的不确定数据挖掘以及分布式数据挖掘领域,理论证明和实验结果均说明了新距离相似性的优越性能。主要工作如下:1.总结数据挖掘领域中的距离计算方法。在数据挖掘领域中,常用的距离相似性计算方法有Euclidean距离、Manhattan距离、Mahalanobis距离等,根据各种距离的计算形式分析了它们的优缺点,为下文研究新的距离提供了依据。2.提出了MP马氏距离(Moore-PenroseMahalanobisDistance)并应用于缺损数据补值。马氏距离相比其它距离,较充分的考虑了数据之间的相关性且不受量纲影响,鉴于该距离中使用的逆矩阵可能不存在的缺点,通过奇异值分解构造了基于Moore-Penrose逆的MP马氏距离,它不受逆矩阵是否存在的影响。在改进了复相关系数倒数赋权法后,将MP马氏距离应用于缺损数据补值,实验结果不仅验证了MP马氏距离的任意存在性,而且在准确性上也略优于马氏距离。3.提出了WMP马氏距离(WeightedMoore-PenroseMahalanobisDistance)并应用于聚类分析。MP马氏距离虽然对任意数据集都存在,但其体现的数据相关性过于客观,可能导致信息错误和挖掘结果非常糟糕。根据实对称矩阵的谱分解理论以及加权Moore-Penrose逆,提出了WMP马氏距离。结合经典的聚类算法进行了仿真分析,结果表明WMP马氏距离在体现数据相关性的准确性上有很大的提高。4.研究了一种新的不确定数据挖掘框架。一般的数据挖掘过程中,原始数据本身可能不准确,数据的预处理可能带来不确定性,数据集成等步骤也可能给数据集带来不确定性,而常见的数据挖掘算法均是针对确定性数据的,因此,传统挖掘方式本身存在着一定的弊端。提出了一种新的基于概率维度的不确定数据挖掘框架,并构造了它的实例,探讨了结合WMP马氏距离应用的相关研究方向。5.研究了一种新的分布式Bayes预测方法。排行榜在电子商务领域中广受关注,但是TB级以上的实时数据排行问题即使在分布式环境下亦是一个难题。改进了朴素Bayes方法,提出了一种离线形式的数据过滤方法,将不可能进入榜单的数据提前进行过滤,从而减小了实时排行所需时间。最后分析了WMP马氏距离在分布式环境下的应用前景。