论文部分内容阅读
数据分析与处理技术迅速发展,在公布或共享数据以挖掘有效决策信息和知识的同时,不免暴露出个人和公司隐私泄露问题,进而催生了隐私保护数据挖掘这一研究领域并在近三年成为国内外研究者关注的焦点。数据挖掘中的聚类挖掘是分析管理问题的重要方法之一,常应用于市场细分、客户分类与制造系统单元化设计等重要领域,而要得到这些结果则需要涉及大量详细具体的敏感性数据和信息,与此同时数据中潜在的模式和规律也很有可能对隐私和信息安全构成威胁。因此随着客户个性化需求时代的急速发展,聚类隐私保护算法也成为亟待解决的关键隐私保护数据挖掘问题。目前关于隐私保护聚类挖掘算法才刚刚起步,采用的隐私保护算法也相对简单,且现有的隐私保护聚类算法在效率效果上均存在着难以调和的矛盾。基于这种现状,本文提出了抽样隐私保护聚类算法,在保证数据隐私性和聚类结果准确性的同时,还可以处理大规模数据。论文主要贡献在于依据基于密度和基于模型聚类算法可构建聚类分布函数的原理,构造了均匀抽样、一元正态和多元正态抽样等三种聚类分布函数。并指出加和模糊系统与高斯混合函数的等价性,确立了基于模糊C均值聚类统计结果的分布函数参数的最优估计,进而应用随机抽样技术,产生了既具原始数据聚类特征又能保护隐私的新数据,并给出了算法流程的详细描述。最后通过仿真实验,验证了本文算法的有效性,并给出了各种隐私保护聚类方法的优势和适用条件。