论文部分内容阅读
现实中,出于统计和研究等目的,一些机构和组织往往需要发布一些包含敏感信息的个人数据,如医疗信息、人口普查信息等。怎样在发布个人数据的同时又能防止个人敏感信息泄露成为数据发布隐私保护中的一个重要问题。
k-匿名模型常用来解决数据发布中的隐私保护问题,但它并没有考虑敏感属性值的分布,容易受到同质攻击和知识背景攻击。l-diversity模型考虑了敏感属性字面上的差异,但忽略了敏感属性值之间的语义相似关系,同样容易受到相似性攻击。相似性攻击是指在同一个等价类中的敏感属性值虽然不同,但它们语义上相似,攻击者仍然能获取目标个体大致的敏感信息。相似性攻击作为属性泄露的一种方式是普遍存在的,并会对个人隐私保护构成严重威胁。
针对以上存在的问题,本文提出以下解决方法:
(1)为了有效地解决属性泄露问题,防止相似性攻击的发生,本文提出了基于敏感属性语义关系的α-similarity k-anonymity隐私保护模型。该模型在k-匿名有效解决身份泄露的基础上,增加对敏感属性语义关系的限制,要求等价类中敏感属性值的语义关系不大于预先给定的参数α;并根据敏感属性值的相似度对等价类进行反聚类处理,避免语义关系相似的敏感属性值密集发布所带来的相似性攻击问题。
(2)敏感属性按照其属性域的不同可以分为数值属性和分类属性两种。对于数值属性,属性值之间的数值差异自然的描述了它们之间的不相似程度。对于分类属性,由于属性值并不是严格意义上有序的,目前缺少一种有效的方法对分类敏感属性值的语义相似性进行计算。在此,本文从语义学角度构建分类树模型,并使用该模型来衡量分类敏感属性值之间的语义相似程度。
(3)关于算法方面,本文首先提出改进的Incognito算法来获取符合α-similarity k-anonymity要求的匿名数据集。由于Incognito算法采用的是自底向上全域泛化方式,在匿名过程中会造成严重的信息丢失。为此,本文又提出了基于局部重编码的多维空间分割算法来解决匿名过程中的信息丢失问题。
与现有的k-匿名模型和l-diversity模型相比,α-similarity k-anonymity模型不仅考虑了身份泄露问题,同时还考虑了针对敏感属性的属性泄露问题,从而降低个人敏感信息泄露的风险。理论分析和实验结果表明新的隐私保护模型能够很好的防止相似性攻击的发生,提供更好的隐私保护效果,并且,匿名数据的信息丢失量并没有显著的增加。