论文部分内容阅读
海量静态数据直方图发布过程中分组划分存在离群点,导致误差增大和离群点判定效率低的问题。对此提出一种适用于Spark框架的满足ε-差分隐私保护的海量静态数据直方图发布方法。对k-means聚类算法进行避免距离重复计算的优化改进;利用改进后的k-means聚类算法进行直方图最优分组划分,实现快速聚合相似分组,形成最优分组融合;对分组结果添加噪声处理,并将经过差分隐私保护处理后的数据进行发布。利用实际数据进行仿真实验,结果表明,所提方法在海量静态数据集隐私保护处理中可提高发布效率和保证数据隐私安全性,同时