论文部分内容阅读
飞速发展的物联网产业和广泛应用的云计算技术为数据挖掘提供了“原料”和“车间”。数据挖掘能够从大规模数据集中提炼出隐藏其中的、前所未有的、有潜在价值的知识。数据挖掘与实体经济的融合创新能够带来巨大的商业价值。数据挖掘算法的设计与优化成为知识发现领域关注的研究热点。大数据时代下个人信息的数字化和集中化加剧了隐私泄露风险。攻击者能轻易地从互联网获取海量的背景知识,并结合数据挖掘的结果以较高的概率推算出敏感信息。实施大数据环境下的隐私保护是一个极大的挑战。传统的在单节点上运行的数据挖掘算法已无法适应大规模数据集的处理。如何更快速、高效地处理大规模数据集,在分布式系统下运行数据挖掘算法是当前的研究热点。因此,本文研究的差分隐私保护的数据挖掘并行算法在大数据时代的隐私保护和高效处理大数据集方面具有重要的理论意义和应用价值。本文的主要工作包括:首先,基于经典K-Medoids算法提出了一种差分隐私保护的K-Medoids(DPK-Medoids)并行算法。该算法的主要贡献有:(1)针对攻击者会根据背景知识和数据挖掘结果来推测中心点的值,导致敏感信息泄露的问题。运用给中心点添加Laplace噪声的方式来改进经典K-Medoids算法。并通过严格的理论分析证明了算法的安全性,极大地提高了算法的隐私保护水平。(2)针对经典算法时间复杂度高,在处理大规模数据集时效率低的问题。基于Hadoop平台的MapReduce模型提出了算法的并行化优化策略,详细设计了Map函数,Combine函数和Reduce函数。其次,基于经典DBSCAN算法提出了一种差分隐私保护的DBSCAN(DP-DBSCAN)并行算法。该算法的主要贡献有:(1)针对基于密度的点群分析算法容易让攻击者根据距离推测其核心点具体信息的问题,运用在核心点添加Laplace噪声的方式来改进经典DBSCAN算法,并验证了算法的安全性且输出结果符合差分隐私保护。(2)因为提出的算法需要重复计算添加噪声的核心点到其ε-邻域中各点的距离。针对算法在处理大规模数据集时会产生较大延时的问题,基于Hadoop平台的MapReduce模型提出了算法的并行化优化策略,将算法分为若干个子任务同步进行。最后,通过实验验证了算法的准确性和高效性。改善了大数据时代下的经典数据挖掘算法的隐私保护水平和运行效率。