保留敏感数据统计特征的数据脱敏系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:adige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在飞速发展的移动互联网的大环境下,用户数据呈现出了爆发式的增长现象,业界对数据的关注程度也因此愈来愈高。发布真实的用户数据供研究者分析和挖掘,这在为科研做出重大贡献的同时也成为了泄露大量用户隐私的渠道之一。这些敏感信息一旦泄露不但可能会给个人带来各种麻烦,如收到大量的垃圾邮件、短信、电话等,严重的可能损害其个人声誉,而且会对人身以及财产安全造成威胁,例如位置和活动的信息泄露后可能遭到跟踪和袭击等,出于法律和道德的约束,这是不可接受的。因此必须及时对敏感信息采取隐私保护措施。这就将数据隐私保护和数据可用性之间的矛盾早早地摆在了我们眼前,为了从海量数据中分析挖掘出有价值的信息并因此提升社会生产力,最亟需解决的就是用户数据的隐私问题以及脱敏后数据的可用性问题。于是数据脱敏算法的研究与开发便成了当务之急。数据的隐私保护与可用性之间是此消彼长的关系,是数据发布之前必须解决的两大难题。本文介绍了保留敏感数据统计特征的数据脱敏系统的整体框架,首先研究了隐私泄露风险评估的方式,并在此基础上开发了相关的工具,接着针对隐私泄露的问题,全面且深入地对保留数据统计特征的数据脱敏系统进行了研究与实现。对于K-匿名数据集而言,本文实现的隐私泄露风险评估工具能够检测出其数据量大小、K-匿名程度、L-多样性水平和属于HIPAA标识符的属性列,计算出数据集处于三种具体攻击模型下的重鉴别风险,挖掘出具有最大风险和1-多样性的具体记录索引与内容。对于数值类型的结构化数据而言,本文实现的两种脱敏方案分别达到了保留均值、方差和内积、欧氏距离、一阶和、二阶和的统计特征的目的。对于标签类型的结构化数据而言,本文实现的方案达到了保留频数、百分比的统计特征的目的。针对目前普遍应用的地理信息数据而言,本文提出了一种利用第三方路径规划API来攻击位置K-匿名数据集的攻击算法,并通过实验证明了攻击算法能够有效地捕捉到K-匿名位置数据集的安全漏洞,从而获取其中的敏感信息。文章最后提出了两种增强型K-匿名位置隐私方案,达到了抵御攻击算法对数据集造成的威胁以及保留原始脱敏数据集的K-匿名保护水平的统计特性的双重效果,并通过大量实验结果证明了两种增强型方案的可靠性。
其他文献
军事供应链网络系统描述的复杂性主要表现在系统本身的复杂性和问题的非结构化。针对军事供应链网络的特点,提出了军事供应链网络的多层模型,不同的层相互关联,表现军事供应
本文运用文献资料法、访谈法等,研究了学生在训练中踝关节损伤的发病机制,探讨了损伤发生的原因,临床表现,提出了损伤的治疗原则、方法和预防措施。
本文从外币会计中涉及的基本概念、外币交易会计处理和外币会计报表折算三个方面就其对应的关联问题进行国别差异与国际惯例的理论与实务研究,供同仁们商榷。
"卓越小学教师"在培养目标上有其自身的内在素养结构要求;适宜采取"分向发展、综合培养"的培养模式;为实现培养目标,在课程设置上需注意协调学科专业课程和教育课程、专业必
农村金融风险及其防范肖俊在社会主义市场经济条件下,防范和化解金融风险,是金融工作乃至整个社会经济生活的一件大事。尤其是在农村金融领域,当前防范和化解金融风险比以往任何
古希腊神话体系演绎出的荡气回肠的爱情故事和英雄传说成为后代文学、影视等创作的源泉,并影响了西方世界几千年历程中人们的思维、观念和精神,是希腊文明及西方文化的源头及
市场化与行政化:关于新闻传播资源配置方法的选择与思考喻国明(一)尽管“市场”一词对于今天中国的老百姓来说,早已不再像从前那样生分,尤其是1992’年3月及后来的中共十四大之后,“市场
小学美术教学作为小学阶段重要的审美教育学科,在新课程视阈下赋予了小学美术更多的内涵。小学美术教学实践中融入新的概念,对学生想象力与美术综合素养的提升作用显著。本次
在当代,马克思主义哲学的理论发展日益壮大。在此过程中,马克思主义的研究发展也需要向更高形态迈进,这必然成为新世纪以来马克思主义研究发展的基石。梳理好新世纪以来国外