论文部分内容阅读
随着信息技术的发展,个人隐私的概念发生了很大的变化,人们对隐私信息的保护也越来越重视。另一方面,信息的大量增长,使人们陷入了数据丰富而知识匮乏的困境,数据挖掘技术能够对海量数据进行处理,发现数据中潜在的关联关系。然而,数据挖掘技术的应用增加了隐私泄露的风险,因此数据表需要在发布前进行匿名化处理,以提供对个人隐私信息的保护。本文从技术角度对匿名化处理进行研究,论文的主要工作包括:①研究了现有隐私保护的各种技术手段,重点分析了在数据表发布前进行的各种处理,总结出当前在该领域研究的两大热点:匿名策略和匿名方法。研究了当前的各种匿名策略和匿名方法,通过分析比较,得出了各种匿名策略和匿名方法的优缺点。②分析了目前对发布的数据表进行的各种攻击方式,研究可以应对多种攻击方式的有效隐私保护模型,深入分析了背景知识攻击的过程及产生背景知识攻击的重要条件。对k-Anonymity和l-Diversity两个隐私保护模型进行了深入研究,针对l-Diversity应对背景知识攻击的不足之处,提出了对其改进的方法,对敏感属性值的分布提出新的要求,建立了(a,d)-Diversity隐私保护模型,对隐私信息提供更有效的保护。③在对目前主要的匿名方法进行研究和分析各种匿名方法优缺点的基础上,结合泛化和聚类两个匿名方法实现了(a,d)-Diversity隐私保护模型,并给出了生成满足该模型的数据表的处理过程和实现的算法描述。在实现过程中,考虑数据表发布的实际应用,结合现有的针对数据表各属性不同重要性的隐私保护模型进行分析,对不同属性进行区别对待,提供了更有效的保护数据表的有效性和可用性的方法。④对现有信息损失模型进行了分析,并对其进行了改进。另外,考虑各个敏感属性值在等价组中的分布及产生隐私泄露的概率,提出了用于评估发布数据表安全性的隐私泄露风险模型。⑤实现了上述算法,并利用加利福尼亚大学机器学习中心的Adult数据库,对(a,d)-Diversity隐私保护模型进行了包括时间性、信息损失及隐私泄露风险的各方面的实验。实验结果表明,在信息损失的增大在一定限度内的情况下,能够对隐私信息提供更有效的保护。