论文部分内容阅读
越来越多的诸如医疗信息、消费数据和行动轨迹等敏感信息,在被分享、传播和分析研究的过程中,泄露了个人隐私,进而对被泄露者的生活造成了重大影响和困扰。现有的研究中,针对多维数据的隐私保护方法尚存在很多问题,主要体现在数据可用性差和隐私保护效果不佳等方面上,亟待解决。针对这个问题,本课题采用差分隐私的思想,对多维数据发布的隐私保护进行了研究和实现。首先,提出了一种普遍意义的多维数据的差分隐私保护方法,将k-means聚类算法应用于首次分区过程,改进了它的距离划分方法,降低了近似误差;并引入信息增益和信息熵,改进了 kd-Tree算法。实验表明,相对于其他方法,该方法平均查询耗时和平均查询误差分别降低了 18.0%和12.4%。其次,针对多维顺序数据这一特殊数据形式,提出了一个改进的多维顺序数据发布差分隐私保护模型,在正阳性、假阳性和误弃性等指标上得到了明显的改进,并依靠严格的数学逻辑推理和证明,保证改进的模型符合差分隐私的要求,达到了特定隐私预算的隐私保护水平。实验表明,针对计数查询任务,模型平均查询误差降低了 22.5%;针对频繁序列模式挖掘的任务,模型正阳性提高了 16.9%,假阳性和误弃性降低了 66.9%。最后,在Spark平台,依靠大数据技术实现了一个极具现实使用价值的系统,系统可实现对多维顺序数据发布的差分隐私保护,在处理计数查询和模式挖掘这两个主要的数据挖掘任务时,相对误差率维持在0.01到0.02之间,正阳性在91.3%以上。