论文部分内容阅读
近年来,信息技术和数据科学发展迅猛,并逐渐被应用于各个行业。数据挖掘可以发现潜在的数据信息和数据间的微妙关系并将其用于决策制定,然而,敏感和隐私信息也同样会被挖掘,这将会给数据提供者造成安全风险。匿名化技术是一项通过将同一等价类中的用户准标志信息变的不可区分,从而保护用户身份或敏感信息不被识别的隐私保护技术。目前的相关算法多是针对关系型等结构型数据集而设计,无法直接用于事务数据集的匿名化。少数针对事务数据的匿名化算法面临着数据高维度,稀疏型数据敏感等问题,从而导致算法时间复杂度高,信息损失大。此外,现实数据中敏感信息往往因人而异,攻击者的背景知识也往往存在局限性。因此,本文的主要研究为:针对事务数据集的匿名化隐私保护问题,本文提出了一个K-匿名隐私保护数据挖掘算法PTA,针对性的解决了事务数据集匿名化时间复杂度高和信息损失大的问题。本文将最小化信息损失的问题转换为求解TSP问题中的最短环路问题,并通过一个类似Prim算法的思想求解最短环路,再通过设计的映射、投票和筛选操作对信息损失进行优化,从而实现了事务数据集的K-匿名隐私保护。此外,本文采用分而治之的思想,以用来降低算法的时间复杂度。实验表明,该算法在时间复杂度和信息损失量方面均优于现有算法。针对个性化的匿名化隐私保护问题,本文首次提出了个性化层次事务数据集的隐私保护问题。同时,考虑到传统的L-多样性隐私保护技术存在的缺陷,本文提出了一个(L,P)-多样性的隐私保护概念,并在此基础上提出了一个贪婪的Lnn-means算法。该算法首先通过层次泛化和矩阵化方法将原始数据转换为类似关系数据集的形式,并采用聚类技术将相似度较高的事务记录进行聚类。最后,通过优先对信息损失量小且满足(L,P)-多样性的事务记录进行等价类生成,从而实现了(L,P)-多样性隐私保护。事实上,Lnn-means算法不仅弥补了传统L-多样性隐私保护技术的缺陷,还在一定程度上避免了L-多样性隐私保护可能面临的语义攻击问题,隐私保护能力更强,安全性更高。总体来说,本文针对性的解决了事务数据集和个性化事务数据的匿名化隐私保护问题。大量的实验证明,本文所提出的框架与算法在实现匿名化需求上是可行且有效的。