本地差分隐私保护的数据统计分析研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:haisangpiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着多形态通信网络(如Internet,移动通信网络,物联网)的广泛应用以及多样式终端设备(如智能手机,可穿戴设备)的普及,越来越丰富且精细的个人数据正在被服务提供方采集和记录,从而为服务提供商进行用户分析挖掘、服务质量改进等提供大数据支持。与此同时,上述过程中的数据隐私问题逐渐凸显,例如,用户的定位数据可能会被用于推断住址、行为活动等,用户的服务使用记录可能会泄露性别、年龄以及疾病等信息。如何在保护用户数据隐私的同时满足服务提供方合理的数据使用需求是大数据时代的巨大挑战之一。近年来,差分隐私逐渐成为数据隐私保护领域的标准定义,相比于已有的隐私保护模型与定义,如k-匿名或l-多样性,差分隐私不需要对隐私敌手的先验知识做出假设,因而具有更严格的数据隐私保护效果。按照应用场景的不同,差分隐私可以细分为集中式的差分隐私(适用于数据库领域)、分布式的差分隐私(基于密码学工具,适用于分布式系统)和本地化差分隐私(基于数据扰动,适用于分布式环境)。其中本地化差分隐私无需假设可信的数据采集方或第三方且计算开销较小,因而适用场景更广和实用程度更高,在工业界的应用也较为流行,如Google将其应用于Chrome浏览器的数据采集,Apple将其应用于移动操作系统iOS的表情符号等的统计分析。在本地差分隐私的数据隐私定义框架下,存在诸多机制可以实现该定义,不同的实现机制在数据统计分析过程的性能(如统计有效性、计算复杂度、通信复杂度等)不一。目前,关于本地差分隐私的数据统计分析研究已经积累了不少成果,理论研究工作对其在隐私保护等级较高时的渐进数据统计有效性上界进行了分析,技术研究工作提出了多种本地差分隐私模型下面向类别数据的分布估计机制。但作为刚兴起的研究领域,当前工作对其理论局限性的研究不够充分,且随着大数据时代用户数据类型多样化、服务提供方数据分析需求复杂化的趋势,现有方案在场景、数据类型、统计分析类型、统计有效性等方面也仍有较大提升与扩展的空间。本论文的研究目标为:(1)从理论层面上分析本地差分隐私框架下数据统计有效性的上界:(2)在应用层面上设计针对多种数据类型的高效本地差分隐私保护机制,提出面向多样统计分析任务的统计估计方法。在本地差分隐私的框架下,本论文首先在理论层面从互信息、分布估计等角度分析了统计有效性的上界,接着从大数据时代数据本身类型多样性的角度出发,分别提出了面向离散量化数据(如传感器读数、位置数据)、集合类型数据的本地差分隐私保护机制,及其对应的统计分析方法(如分布估计、均值估计),最后探讨了其在终端数据挖掘、大规模在线A/B测试等方面的应用。具体来说,本文主要完成了以下一些工作。·本地差分隐私的互信息上界、分布估计误差下界分析。当前理论研究工作对于数据统计有效性的结论只适用于隐私保护等级较高时且结果较为粗略,在此项研究中,以视图与真实数据之间的互信息量作为统计有效性的标准,利用无先验知识的随机类别变量的对称性,本文得到其在本地差分隐私约束下的精确互信息量上界。接着以类别数据的分布估计准确度为标准,本文提出了参数最优的差分隐私实现机制,该机制相较现有机制平均降低了20%的分布估计误差。·面向离散量化数据的本地差分隐私分布估计。采用考虑距离关系的本地差分隐私定义:几何不可区分性,针对当前机制以保持单个数据有效性为目标的缺陷,本文提出了为数据统计有效性优化的子集指数机制,使得评分、智能电表读数、位置数据等离散量化数据的分布估计误差平均降低了50%。·本地差分隐私的集合数据元素分布估计及集合势分布估计。针对较为复杂的集合类型数据,不同于现有机制中需要将集合类型数据进行切割并分别随机化的方法,本文将集合元素视作整体并设计合适的输出概率,通过视图中元素的真正率、假正率分析得到最优的随机化参数及其对应的分布估计理论误差界。理论分析和实验结果表明该方法相比现有机制估计误差通常能减小一半。·本地差分隐私的均值估计及其在A/B测试中的应用。在常见的数据均值估计问题的研究中,依据数据定义域和隐私保护等级等信息对有界量化数据进行自适应地离散化,接着对该离散化的数值进行本地差分隐私保护并做无偏估计处理。通过采用自适应离散化和随机化方法,该机制相较于已有机制可以有效的降低均值估计误差。在应用层面,考虑到A/B测试中指标通常是多维数据且重要程度不一,本文研究了优化的多维数据均值估计和用户分配方案,从而获得了较高的测试灵敏度。
其他文献
<正>一、问题的提出"提问得好即教得好",这是西方学者德加默的一句经典教育语录,"提问得好"的前提是"设问得好",而"设问得好"应该以"有效设问"为基础.如果设问过于浅显,则学
21世纪是信息的时代,更是科技高速发展的时代。作为21世纪三大关键技术之一的新材料,自然也成为了孕育新技术、新产品、新装备的"创新摇篮"。据悉,"十二五"期间,新材料产业将积极
毋庸置疑,美术馆是开展美术教育的绝佳场所,但当下社会对于其作为教育机构的角色依然存在着迷惑,尤其是美术馆与普通高等院校美术教育之间的合作,在理想与现实之间仍有较大的
<正>一、引言整洁规范的书写,美观大方的字体,给人赏心悦目的感觉。而在我们的教学中难免会遇到一些因字迹潦草、书写不规范而让人看不清、读不懂甚至令人生厌的作业。在重要
渎职侵权检察是维护法律统一正确实施的重要职能 ,而大量的工作又都在基层院。因此 ,市级院在做好本院渎职侵权检察工作的同时 ,须不断研究和加强对下指导工作 ,以在查办渎职
<正>一堂政治公开课成功与否的标准是什么?过去一直强调的是:教学过程要完整;教学秩序要井然;坚持启发式教学;坚持教师主导与学生主体统一;坚持知识、能力、觉悟三维目标统一
<正>据甲骨卜辞记载,商代已有御史一职。战国时期,御史已有监察职能。秦汉时期,御史大夫的职掌为"典正法度,以职相参,总领百官,上下相监临",主要负责监察。汉武帝将全国分为
郑玄在《周礼注》、《毛诗笺》中对兴的认识有所不同。郑玄随文释义,从不同角度加以解说;在《周礼注》中以善恶美刺区别比、兴的解说,源于《周礼》“乐语”,是侧重从用《诗》
<正>~~
会议
本文就“诗言志”这一古老的诗学命题加以逐层分疏,不仅对“志”的确切内涵、“言”与“志”的对立统一关系以及“诗言志”观念的形成与演化过程有一具体的把握,更着眼于揭示