论文部分内容阅读
在各式各样的数据应用中,隐私保护越来越受到人们的关注。这个现象主要有两个方面的原因:一方面,随着数据库技术和互联网的不断发展,越来越多的数据可以被人们发布和使用,这些涉及到社会生活的方方面面的数据可能包含了个人的隐私信息,例如医院的病历数据就包含了特定的个人患有某种疾病的信息;另一方面,人们越来越懂得数据的价值,期望获得和使用更多的数据来实现特定的应用,例如从病历数据中挖掘关联规则。于是,如何在数据的发布和使用中保护个人隐私成为了一个越来越严峻的话题。数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化或者隐藏)原始数据中的部分数据,使改变后的数据无法和其他信息相结合,推理出关于任何个人的隐私信息。如何对含有隐私信息的数据进行匿名化已经吸引了大量的研究工作。然而,大多数已有的工作并没有考虑数据在匿名化后的使用目的,这导致匿名化后数据的可使用性不尽理想。因此如何在保护隐私的同时获得良好的数据可用性,这是学术界和工业界都亟需解决的一个问题。本文主要研究基于可用性的数据匿名化问题,一个在数据隐私保护领域中的全新问题。本文的研究成果主要有:1.提出了基于可用性的数据匿名化思想:将数据匿名化方法与数据的使用目的相联系,强调匿名化后数据的可用性。为此本文提出了一种新型的匿名化质量度量,并形式化地定义了基于可用性的匿名化问题。2.证明了基于可用性的匿名化问题在通常意义上是一个NP难问题,给出了两个启发式的基于可用性的匿名化算法。大量的在真实数据和人工数据上的实验评估证明,这两个算法在匿名化效果上具有良好的性能,相比已有的研究成果,这两个基于可用性的匿名化算法在匿名化后数据的可用性方面,具有明显的优势。3.分析了在数据有增量更新时潜在的隐私威胁,提出了一种基于可用性的并且可以确保隐私安全的增量匿名化策略,并给出相应的算法。该算法可以在保证隐私安全的前提下,优化数据的可用性。此外,由于该算法是一个增量式的算法,在效率上也体现了良好的性能。4.探讨了数据匿名化问题的实质,并通过将基于可用性的匿名化方法扩展到能够适应其他数据匿名化原则,来深入阐述基于可用性的匿名化的意义。