论文部分内容阅读
微数据是指与个体相关的数据,如人口统计数据、客户购物数据、患者医疗数据等,这些数据在趋势分析、市场预测等应用中具有重要的价值。但是如果直接发布或共享微数据会泄漏大量的个体隐私信息。因此,研究微数据发布过程中的隐私保护问题具有重要的现实意义和理论价值。匿名化方法是一种安全有效的隐私数据保护方法,近年来,已经成为数据库和信息安全领域的研究热点。其主要思想是对原始数据进行某种变换,使攻击者无法根据变换后的数据推导出敏感信息所属的具体个体,从而达到保护个体隐私的目的。本文深入研究了微数据发布中的隐私保护匿名化模型及实现技术,并针对现有方法在处理数值型敏感属性和混合型数据上的不足,提出了混合匿名化方法,具体工作有:(1)针对数值型敏感属性提出了(k,e)-MDAV算法。MDAV (Maximum Distance to Average Vector)算法是一种高效的微聚集算法,但该算法没有考虑等价类中敏感属性值的多样性,不能抵制同质性攻击和背景知识攻击。为了解决该问题,本文提出了实现敏感属性多样性的(k,e)-MDAV算法。该算法的基本思想是在进行等价类聚类时,将距离类中心最近的至少k个元组划为一类,同时要求每个类内敏感属性值的最大差异至少为e,从而避免了匿名表中同一等价类内数值型敏感属性值过于接近而造成的隐私泄密。实验结果表明该算法既能够保持MDAV算法的高效性,又能够生成满足(k,e)-匿名模型的更安全的匿名表。(2)针对混合型数据提出了高效k-匿名化的混合算法。由于混合型数据在数据库中普遍存在,而微聚集技术在处理分类型数据时会改变分类型数据的概率分布,泛化/隐匿技术在处理数值型数据时会丢失数值型数据的语义信息,降低了数据的可用性。为此,本文提出了混合型数据高效k-匿名化的混合算法。该算法采用泛化值取代分类型属性值,更好的保留了分类型数据的有用性;用类均值取代数值型属性值,保留了更多的数值语义。为了能对较大数据集进行较为高效的匿名化处理,该算法先采用c-prototype算法将原始数据划分为若干子类,每个子类的大小不小于k,再对划分后的子类进行匿名化处理,这样可以有效的提高对于较大数据集的k-匿名化的效率。实验结果表明该算法能对混合型数据进行高效的κ-匿名化处理。