论文部分内容阅读
在飞速发展的移动互联网的大环境下,用户数据呈现出了爆发式的增长现象,业界对数据的关注程度也因此愈来愈高。发布真实的用户数据供研究者分析和挖掘,这在为科研做出重大贡献的同时也成为了泄露大量用户隐私的渠道之一。这些敏感信息一旦泄露不但可能会给个人带来各种麻烦,如收到大量的垃圾邮件、短信、电话等,严重的可能损害其个人声誉,而且会对人身以及财产安全造成威胁,例如位置和活动的信息泄露后可能遭到跟踪和袭击等,出于法律和道德的约束,这是不可接受的。因此必须及时对敏感信息采取隐私保护措施。这就将数据隐私保护和数据可用性之间的矛盾早早地摆在了我们眼前,为了从海量数据中分析挖掘出有价值的信息并因此提升社会生产力,最亟需解决的就是用户数据的隐私问题以及脱敏后数据的可用性问题。于是数据脱敏算法的研究与开发便成了当务之急。数据的隐私保护与可用性之间是此消彼长的关系,是数据发布之前必须解决的两大难题。本文介绍了保留敏感数据统计特征的数据脱敏系统的整体框架,首先研究了隐私泄露风险评估的方式,并在此基础上开发了相关的工具,接着针对隐私泄露的问题,全面且深入地对保留数据统计特征的数据脱敏系统进行了研究与实现。对于K-匿名数据集而言,本文实现的隐私泄露风险评估工具能够检测出其数据量大小、K-匿名程度、L-多样性水平和属于HIPAA标识符的属性列,计算出数据集处于三种具体攻击模型下的重鉴别风险,挖掘出具有最大风险和1-多样性的具体记录索引与内容。对于数值类型的结构化数据而言,本文实现的两种脱敏方案分别达到了保留均值、方差和内积、欧氏距离、一阶和、二阶和的统计特征的目的。对于标签类型的结构化数据而言,本文实现的方案达到了保留频数、百分比的统计特征的目的。针对目前普遍应用的地理信息数据而言,本文提出了一种利用第三方路径规划API来攻击位置K-匿名数据集的攻击算法,并通过实验证明了攻击算法能够有效地捕捉到K-匿名位置数据集的安全漏洞,从而获取其中的敏感信息。文章最后提出了两种增强型K-匿名位置隐私方案,达到了抵御攻击算法对数据集造成的威胁以及保留原始脱敏数据集的K-匿名保护水平的统计特性的双重效果,并通过大量实验结果证明了两种增强型方案的可靠性。