论文部分内容阅读
随着社会的进步和科技的发展,互联网中的数据呈现指数式爆炸增长,这些数据不仅来源广,而且种类多,数据分析者常常利用数据挖掘的方式来获取其中的有用信息,聚类分析作为数据挖掘的一个重要分支,也常被用来对数据进行处理计算。然而,因为人们对个人隐私信息的日益关注,对其进行不同程度的数据分析也带来了迫切需要解决的隐私泄露问题。作为新兴的隐私保护技术,差分隐私机制常被当作保护聚类分析过程中数据隐私的一种有效方式,但与此同时,如何在保护的过程中平衡额外噪声的添加及聚类结果的可用性,已经成为目前亟待解决的热点研究问题。因此,针对以上问题,本文主要的研究工作有:(1)针对K-means聚类算法中出现的隐私泄露问题,已有的研究提出利用差分隐私机制来保证聚类分析过程中隐私信息的安全,但与此同时,该算法因为噪声的添加存在聚类结果可用性不高的问题。因此,本文在该算法的基础上提出改进,在保证K-means聚类算法过程安全性的同时,从离群点的检测以及距离计算方式入手,解决在差分隐私机制下K-means算法聚类结果效用不高的问题,并对文章所提方案工作原理和具体构造进行详细描述,最后通过实验对改进后算法的性能进行验证,实验结果表明,与已有的差分隐私K-means算法相比,我们所提算法在保证隐私安全的前提下,聚类结果的可用性得到了很大提高。(2)针对单一K-means聚类算法面对大规模数据集效率不高以及在MapReduce框架下对数据集进行聚类分析同样存在的安全问题,我们选择在(1)的基础上将差分隐私保护机制应用在MapReduce框架下的K-means算法中。主要核心是结合差分隐私机制中的并行组合及串行组合等性质,提出一种支持差分隐私保护的MapReduce框架下的K-means算法,通过合理的设置来保证其中隐私信息的安全。然后对算法进行安全性分析,并通过实验验证,该算法能够有效解决在MapReduce框架上运行K-means聚类算法时存在的隐私泄露问题,同时提升聚类算法的效率以及保证聚类结果的可用性。