论文部分内容阅读
近年来,随着信息技术,特别是大数据和人工智能领域研究的飞速发展,海量数据的收集、存储、发布和分析变得越来越容易。从数据安全和个人隐私保护层面来看,大数据应用也带来了很大的数据安全隐患。在大数据所面临着诸多安全问题中,如何从大数据中分析挖掘出更多的价值而又很好地保护数据的隐私安全显得尤为重要。因此,本文对大数据安全和隐私保护中的关键技术展开了以下研究:首先本文对大数据所面临的安全问题展开了深入分析。从对大数据生命周期模型出发,将大数据安全划分为数据存储安全、数据访问控制、抗大数据分析挖掘和数据发布隐私保护四个方面,对不同的阶段所应用的安全技术进行分析研究。最后,根据后续章节实验需求搭建部署了大数据安全与隐私保护数据处理平台。通过分析海量静态数据直方图发布过程中分组划分存在离群点的情况,以及离群点导致发布结果误差增大和离群点判定过程中计算效率低的问题,提出了一种适用于Spark框架的满足差分隐私的直方图发布方法(SPDP-GS)。该方法利用改进的k-means算法对待发布直方图进行最优分组划分,实现快速聚合相似分组,达到最优分组融合。然后,对分组数据添加Laplace噪声,并将经过差分隐私保护处理后的数据进行发布。实验结果表明,SPDP-GS方法在海量数据的隐私保护处理中可提高发布数据的隐私性和发布效率,同时保证发布数据具有较好的可用性。针对动态数据需周期性的发布统计信息的需求,提出了一种利用分形维数和分组思想的基于差分隐私的数据流直方图发布方法(DP-FC)。该方法先利用滑动窗口对动态数据进行分割,然后将每个滑动窗口所承载的数据执行分形聚类操作,按照属性进行分类统计,从而构成不同的分组。再对每分组添加拉普拉斯噪声和执行分组融合优化,实现多维动态数据的差分隐私保护数据发布。实验结果表明,该方法可有效应对动态数据的隐私发布需求,同时保证发布数据具有较好的可用性。综上所述,本文对大数据安全与隐私保护关键技术展开了深入的研究。针对静态数据集的发布和动态数据的发布所存在的问题提出了基于差分隐私保护的数据发布方法,并利用所搭建平台进行实验验证。最后,对本文研究存在的不足之处予以说明,并对未来研究关注点作出分析。本研究结果可为大数据安全和隐私保护的研究提供思路,具有一定的借鉴意义。