论文部分内容阅读
伴随着多形态通信网络(如Internet,移动通信网络,物联网)的广泛应用以及多样式终端设备(如智能手机,可穿戴设备)的普及,越来越丰富且精细的个人数据正在被服务提供方采集和记录,从而为服务提供商进行用户分析挖掘、服务质量改进等提供大数据支持。与此同时,上述过程中的数据隐私问题逐渐凸显,例如,用户的定位数据可能会被用于推断住址、行为活动等,用户的服务使用记录可能会泄露性别、年龄以及疾病等信息。如何在保护用户数据隐私的同时满足服务提供方合理的数据使用需求是大数据时代的巨大挑战之一。近年来,差分隐私逐渐成为数据隐私保护领域的标准定义,相比于已有的隐私保护模型与定义,如k-匿名或l-多样性,差分隐私不需要对隐私敌手的先验知识做出假设,因而具有更严格的数据隐私保护效果。按照应用场景的不同,差分隐私可以细分为集中式的差分隐私(适用于数据库领域)、分布式的差分隐私(基于密码学工具,适用于分布式系统)和本地化差分隐私(基于数据扰动,适用于分布式环境)。其中本地化差分隐私无需假设可信的数据采集方或第三方且计算开销较小,因而适用场景更广和实用程度更高,在工业界的应用也较为流行,如Google将其应用于Chrome浏览器的数据采集,Apple将其应用于移动操作系统iOS的表情符号等的统计分析。在本地差分隐私的数据隐私定义框架下,存在诸多机制可以实现该定义,不同的实现机制在数据统计分析过程的性能(如统计有效性、计算复杂度、通信复杂度等)不一。目前,关于本地差分隐私的数据统计分析研究已经积累了不少成果,理论研究工作对其在隐私保护等级较高时的渐进数据统计有效性上界进行了分析,技术研究工作提出了多种本地差分隐私模型下面向类别数据的分布估计机制。但作为刚兴起的研究领域,当前工作对其理论局限性的研究不够充分,且随着大数据时代用户数据类型多样化、服务提供方数据分析需求复杂化的趋势,现有方案在场景、数据类型、统计分析类型、统计有效性等方面也仍有较大提升与扩展的空间。本论文的研究目标为:(1)从理论层面上分析本地差分隐私框架下数据统计有效性的上界:(2)在应用层面上设计针对多种数据类型的高效本地差分隐私保护机制,提出面向多样统计分析任务的统计估计方法。在本地差分隐私的框架下,本论文首先在理论层面从互信息、分布估计等角度分析了统计有效性的上界,接着从大数据时代数据本身类型多样性的角度出发,分别提出了面向离散量化数据(如传感器读数、位置数据)、集合类型数据的本地差分隐私保护机制,及其对应的统计分析方法(如分布估计、均值估计),最后探讨了其在终端数据挖掘、大规模在线A/B测试等方面的应用。具体来说,本文主要完成了以下一些工作。·本地差分隐私的互信息上界、分布估计误差下界分析。当前理论研究工作对于数据统计有效性的结论只适用于隐私保护等级较高时且结果较为粗略,在此项研究中,以视图与真实数据之间的互信息量作为统计有效性的标准,利用无先验知识的随机类别变量的对称性,本文得到其在本地差分隐私约束下的精确互信息量上界。接着以类别数据的分布估计准确度为标准,本文提出了参数最优的差分隐私实现机制,该机制相较现有机制平均降低了20%的分布估计误差。·面向离散量化数据的本地差分隐私分布估计。采用考虑距离关系的本地差分隐私定义:几何不可区分性,针对当前机制以保持单个数据有效性为目标的缺陷,本文提出了为数据统计有效性优化的子集指数机制,使得评分、智能电表读数、位置数据等离散量化数据的分布估计误差平均降低了50%。·本地差分隐私的集合数据元素分布估计及集合势分布估计。针对较为复杂的集合类型数据,不同于现有机制中需要将集合类型数据进行切割并分别随机化的方法,本文将集合元素视作整体并设计合适的输出概率,通过视图中元素的真正率、假正率分析得到最优的随机化参数及其对应的分布估计理论误差界。理论分析和实验结果表明该方法相比现有机制估计误差通常能减小一半。·本地差分隐私的均值估计及其在A/B测试中的应用。在常见的数据均值估计问题的研究中,依据数据定义域和隐私保护等级等信息对有界量化数据进行自适应地离散化,接着对该离散化的数值进行本地差分隐私保护并做无偏估计处理。通过采用自适应离散化和随机化方法,该机制相较于已有机制可以有效的降低均值估计误差。在应用层面,考虑到A/B测试中指标通常是多维数据且重要程度不一,本文研究了优化的多维数据均值估计和用户分配方案,从而获得了较高的测试灵敏度。