多维数据发布的差分隐私保护系统的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户：zhanlei753

【摘要】

：

越来越多的诸如医疗信息、消费数据和行动轨迹等敏感信息,在被分享、传播和分析研究的过程中,泄露了个人隐私,进而对被泄露者的生活造成了重大影响和困扰。现有的研究中,针对

【作者】

：

王晓男

【出处】

：

北京邮电大学

【发表日期】

：

2017年01期

【关键词】

：

差分隐私拉普拉斯机制 k-means 分区 kd-Tree 分区噪声前缀树一致性约束 Spark框架

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

越来越多的诸如医疗信息、消费数据和行动轨迹等敏感信息,在被分享、传播和分析研究的过程中,泄露了个人隐私,进而对被泄露者的生活造成了重大影响和困扰。现有的研究中,针对多维数据的隐私保护方法尚存在很多问题,主要体现在数据可用性差和隐私保护效果不佳等方面上,亟待解决。针对这个问题,本课题采用差分隐私的思想,对多维数据发布的隐私保护进行了研究和实现。首先,提出了一种普遍意义的多维数据的差分隐私保护方法,将k-means聚类算法应用于首次分区过程,改进了它的距离划分方法,降低了近似误差;并引入信息增益和信息熵,改进了 kd-Tree算法。实验表明,相对于其他方法,该方法平均查询耗时和平均查询误差分别降低了 18.0%和12.4%。其次,针对多维顺序数据这一特殊数据形式,提出了一个改进的多维顺序数据发布差分隐私保护模型,在正阳性、假阳性和误弃性等指标上得到了明显的改进,并依靠严格的数学逻辑推理和证明,保证改进的模型符合差分隐私的要求,达到了特定隐私预算的隐私保护水平。实验表明,针对计数查询任务,模型平均查询误差降低了 22.5%;针对频繁序列模式挖掘的任务,模型正阳性提高了 16.9%,假阳性和误弃性降低了 66.9%。最后,在Spark平台,依靠大数据技术实现了一个极具现实使用价值的系统,系统可实现对多维顺序数据发布的差分隐私保护,在处理计数查询和模式挖掘这两个主要的数据挖掘任务时,相对误差率维持在0.01到0.02之间,正阳性在91.3%以上。

其他文献

基于HyperWorks转向器支架结构优化及改进设计

针对某 10×4 自卸车新结构转向器支架在试验过程中发生断裂故障,从转向液压助力系统,转向器支架结构、断裂形式及受力情况进行原因分析,并运用 CATIA三维建模和 HyperWo

期刊

转向器支架安全因子Hyperworks疲劳分析试验验证

在网约车现实与民事法律规范之间

科学技术的进步与发展必将带来法律制度的变革。作为保护民事主体合法权益的民法也应当对'互联网+'时代科技发展的现实作出回应。以'互联网+'为特征的网约车

期刊

网约车规则“互联网+”网络平台情谊行为

家用空调器控制方法对比研究

本文首先建立了房间热力学模型,在此基础上对传统定频空调控制器的开关控制、变频空调的PID控制和模糊控制做出了比较,并给出了仿真和实验波形.

期刊