论文部分内容阅读
在计算机网络技术快速发展的大背景下,互联网为了给人们带来越来越大的便利,大量收集用户的各方面信息。由于互联网的开放性,导致用户信息共享也变得越来越简,同时用户个人敏感信息发生泄漏的风险大大增加。为了进行数据挖掘,数据研究科研,在某些情况下数据拥有者需要在互联网上发布包含用户个人信息的数据集,这种情况下的信息共享更容易造成用户个人的隐私信息泄露。因此,在这些数据发布机构发布数据之前需要对原始数据集采取一定方式隐藏用户的身份以保护敏感信息,数据发布中的隐私保护也成为隐私保护领域的主要研究内容,其主要目标是对发布数据在保证用户信息的隐私不被泄露的同时尽可能地提高发布数据的可用性,实现高效安全的信息共享。在数据发布的实际应用中,通常面临的情况是数据集包含多敏感隐私属性,并且针对敏感信息需要进行个性化保护,因此多敏感属性隐私保护及个性化发布是当前数据发布中的研究热点,本文重点分析了现有的基于多维桶技术和利用L-覆盖性聚类方法的多敏感属性数据发布方法,并提出了一种新的基于类二部图边选择的分组算法(BES),并通过实验证明了BES算法的有效性。本文继续分析了在多敏感属性个性化数据发布的情况下,现有的加权多维桶分组算法(WMBF),最小选择度优先分组算法,完全(α,k)-anonymity模型等均存在敏感度高的元组划分到同一等价类分组中,造成隐私属性值倾斜,容易受到同质攻击的问题,并且制定个性化方案时只考虑了敏感属性值的敏感度而没有综合考虑敏感属性自身的敏感度问题。因此本文在综合考虑敏感值和敏感属性自身敏感度的基础上,为避免发布数据中同一分组隐私属性值倾斜,在L-多样化模型的基础上提出(L,α)-diversity个性化匿名模型,针对该模型实现加权的基于类二部图边选择分组算法(WBES)和其改进算法L-拆分元组边选择分组算法(L-SWES)。实验结果表明本文提出的算法能有效避免同质攻击,并且能够得到较好的数据发布效果。且分组算法在执行时间上不受敏感属性维度的影响,保持比较好的算法效率。