论文部分内容阅读
数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘和知识发现在各类数据应用范围中都起到非常重要的作用。数据挖掘的目的是从大量的无规律的数据中抽取出潜在的、有价值的知识、模型、规则等;另一方面,数据发布是把数据库中的数据通过相应的方式提供给用户,但在各种数据应用中,如果在数据发布过程中没有相应的方法对隐私数据进行保护,那么很有可能导致敏感信息的泄漏,因此会给数据所有者带来负面影响。例如在医院的病历数据中使用数据挖掘的相关算法进行挖掘,以进行相关疾病问题的研究。由于医院的病历数据包含了患者疾病的隐私信息,所以如何在数据的发布过程中,使用并且能够保护个人隐私成为了一个越来越严峻的问题。 数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化、压缩等)原始数据中的部分数据,使改变后的数据无法和其他信息相结合而推理出关于任何个人的隐私信息。如何对针对含有隐私信息的数据进行相应的匿名化工作,现如今已经得到了越来越多的研究人员的兴趣。 通常的说,实现隐私数据的保护主要是考虑以下两个问题:(1)保证数据使用的过程中不泄露用户隐私信息;(2)保证数据的实用性更好。因此,如何在保护隐私的同时获得更好的数据可用性,这是学术界和工业界都需要面对和要解决一个问题。 因此,本文的主要工作重点集中在保证足够的隐私力度的前提下,如何提高数据的可用性。从匿名算法和匿名技术二个方面着手提高数据的可用性,本文研究成果主要有: (1)K-匿名模型是隐私保护中最重要的模型之一。其中概化技术是非常普遍使用的一种匿名技术。通常,基于概化的K-匿名算法共同遵守一个方法,来完成一张表的匿名化处理:把表划分成很多的分组(QI-groups),且这些QI-groups的大小至少是K。然而,我们发现当使用已存在的方法去匿名化和概化QI-groups时,在同一个QI-group中语义相近的一些敏感属性值的隐私会被泄露。为了解决这个问题,引入概念m-color约束,并在该概念的基础上提出相应的理论方法来防止类别属性邻近隐私的泄露,并给出了相应的概化算法。并用实验说明算法的效率和实用性,能大大的降低信息损失。 (2)已有的隐私保护数据发布可被分为两类:理论类型和启发式类型。前者可从理论化的角度讨论数据发布过程中如何保证低信息损失。而后者在多数的情况下其在真实数据集上运行的效果良好,但在某些特殊的数据集上运行的效果并不理想可能会导致很大的信息损失。目前,人们已设计出大量的启发式算法满足一些隐私保护规则,如l-diversity,t-closeness等等。但是,理论类型的研究仅仅局限于k-匿名和l-diversity。基于上述问题,我们首次提出了(ε,m)-anonymity理论化问题的研究。首先,证明了(ε,m)-anonymity‘*’最小化问题是一个NP-难问题,最后给出了问题的相应的算法。 (3)在探讨了已有的匿名技术基础之上,提出了集成(Ensemble Algorithm forPrivacy Preservation)隐私保护算法,它的特点是综合了概化(Generalization)和机器学习中的集成学习(Ensemble Learning)两种技术的特点,通过对几个k-匿名算法进行集成,最后输出由这几个算法集成而成的满足k-匿名的表,优化了数据的可用性,降低了信息损失。通过对集成隐私保护技术的分析表明,它是k-匿名技术的一种推广,能够提供比k-匿名更加好的隐私保护力度,更好地降低信息损失,应用范围也更加的广泛。