论文部分内容阅读
在Internet中的数据传输,传感器网络的数据采集,金融商业领域的交易记录等过程中时时刻刻都产生着海量的数据,不确定性数据占据了很大比例。所以,近年来,不确定性数据的聚类研究受到了广泛的关注。因为在现实环境中,不确定性数据总是不可避免的存在。这些数据的不确定性对最终的聚类结果会产生较大的影响,因而不能忽视。所以如何有效地处理不确定性数据成了一个研究热点。在不确定性数据聚类算法的研究中,普遍需要假设不确定性数据服从某种分布,进而获得表示不确定性数据的概率密度函数或概率分布函数。然而这种假设很难保证与不确定性数据的实际分布一致,使得聚类质量和计算效率较低。现有的基于密度的不确定性聚类算法对初始参数敏感,在对密度不均匀的不确定性数据聚类时,无法发现任意密度的类簇。现有算法大多只能单机串行运行,无法满足大数据处理的需要。针对这些问题本文主要的工作如下:本文对传统基于分层密度的聚类算法OPTICS(Ordering Points To Identify the Clustering Structure,OPTICS)进行改进,进而提出基于区间数的不确定性数据聚类算法UD-OPTICS(Uncertain Data OPTICS,UD-OPTICS)。改进算法利用区间数理论,结合不确定性数据的统计信息来更加全面准确地表示不确定性数据;提出了低复杂度的区间核心距离和区间可达距离的概念,对区间数之间的距离计算方式进行改进,进而用于计算上述距离;将上述概念及计算方式用于不确定性数据间的相似度度量、对象排序识别聚类结构等。实验表明,相比于对比算法,改进算法的聚类质量平均提升15.33%,在密度不均匀的数据集上的聚类质量平均提升23.91%。针对改进的UD-OPTICS算法单机串行运行不能满足大数据聚类的需求,将UD-OPTICS算法与Hadoop结合,提出了一种高效的并行不确定性数据聚类算法HUD-OPTICS。HUD-OPTICS算法运用MapReduce模型实现并行计算,并使用改进的PRBP数据分区划分方法对数据集进行最小边界点数和均衡的分区划分,为集群各节点的负载均衡与算法最终的高效运行提供保障。搭建Hadoop平台进行实验,结果表明HUD-OPTICS算法能够满足集群环境聚类不确定大数据中的需要。