基于可用性的数据匿名化研究

被引量 : 0次 | 上传用户:lyh327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在各式各样的数据应用中,隐私保护越来越受到人们的关注。这个现象主要有两个方面的原因:一方面,随着数据库技术和互联网的不断发展,越来越多的数据可以被人们发布和使用,这些涉及到社会生活的方方面面的数据可能包含了个人的隐私信息,例如医院的病历数据就包含了特定的个人患有某种疾病的信息;另一方面,人们越来越懂得数据的价值,期望获得和使用更多的数据来实现特定的应用,例如从病历数据中挖掘关联规则。于是,如何在数据的发布和使用中保护个人隐私成为了一个越来越严峻的话题。数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化或者隐藏)原始数据中的部分数据,使改变后的数据无法和其他信息相结合,推理出关于任何个人的隐私信息。如何对含有隐私信息的数据进行匿名化已经吸引了大量的研究工作。然而,大多数已有的工作并没有考虑数据在匿名化后的使用目的,这导致匿名化后数据的可使用性不尽理想。因此如何在保护隐私的同时获得良好的数据可用性,这是学术界和工业界都亟需解决的一个问题。本文主要研究基于可用性的数据匿名化问题,一个在数据隐私保护领域中的全新问题。本文的研究成果主要有:1.提出了基于可用性的数据匿名化思想:将数据匿名化方法与数据的使用目的相联系,强调匿名化后数据的可用性。为此本文提出了一种新型的匿名化质量度量,并形式化地定义了基于可用性的匿名化问题。2.证明了基于可用性的匿名化问题在通常意义上是一个NP难问题,给出了两个启发式的基于可用性的匿名化算法。大量的在真实数据和人工数据上的实验评估证明,这两个算法在匿名化效果上具有良好的性能,相比已有的研究成果,这两个基于可用性的匿名化算法在匿名化后数据的可用性方面,具有明显的优势。3.分析了在数据有增量更新时潜在的隐私威胁,提出了一种基于可用性的并且可以确保隐私安全的增量匿名化策略,并给出相应的算法。该算法可以在保证隐私安全的前提下,优化数据的可用性。此外,由于该算法是一个增量式的算法,在效率上也体现了良好的性能。4.探讨了数据匿名化问题的实质,并通过将基于可用性的匿名化方法扩展到能够适应其他数据匿名化原则,来深入阐述基于可用性的匿名化的意义。
其他文献
塔里木盆地的东河砂岩体并不是简单的滨岸沉积产物,在不同地区具备独特的沉积背景,发育不同模式控制的砂体。根据钻井、测井和地震等资料,通过塔里木盆地东河1油田实例研究,
本文的选题基于以下背景:一是在信息化、产业化、全球一体化的时代背景下,技术进步作为推动经济增长的内在动力在新增长理论和演化经济学中得到肯定,熊彼特等人提出了技术创
随着经济发展和居民收入的增加,文化产业提供的产品和服务必将成为未来产业结构和消费结构的主体。改革开放以来,文化体制改革大大促进了文化产业的发展。文章总结文化产业发
<正>温胆汤最早见于《外台秘要》卷17引《集验方》,方中生姜四两、半夏二两(洗)、橘皮三两、竹茹二两、枳实二枚、甘草一两(炙),治"大病后,虚烦不得眠,此胆寒故也"。《三因极
随着电子元器件集成度的不断提高,微电子系统的热控制问题越来越严重,成为急需解决的难题之一。本文在分析传统的冷却方法的基础上提出了基于MEMS的微介电液滴冲击系统,并对
我国是一个资源相对贫乏的国家,随着我国国民经济的持续高速发展,对国外资源特别是石油等一次性能源需求越来越大。这类大宗散货的海上远距离运输,采用超大型船舶具有非常明
【目的】VlTFL1A是葡萄3个TFL基因之一,该基因在葡萄花序形成过程中发挥重要作用。筛选VlTFL1A启动子上游的调控因子,为研究该基因在调控葡萄成花中的机理奠定基础。【方法】
作为新兴的清洁电能源,燃料电池具有能量密度高、转换效率高和环境友好等优点,具有广阔的应用前景。近年来,以微小型燃料电池和辅助电源组成的混合电源作为移动电子设备电源
本论文围绕非英语专业学生的英语学习自我效能,听力策略使用对听力成绩的影响进行研究这三个因素之间的内在关系,以此来探求大学英语听力教学的思路和途径。本研究在回顾相关
本文通过对明代山西节孝妇群体进行统计与分析,试图突破此前研究将注意力主要集中在妇女贞节行为与思想之上的局限,从兼具守节与尽孝行为的妇女群体入手,在一定程度上拓宽妇