论文部分内容阅读
大数据时代带来了数据的爆炸式增长,数据安全特别是数据的隐私问题变得尤为重要。隐私保护的数据发布是隐私保护领域的一个研究热点。在数据发布过程中,如果发布原始数据,会导致严重的隐私信息泄露问题。发布的数据需要既保护数据的隐私,又保持数据的可用性,这也正是隐私保护数据发布的目标。现有的研究仍然不能避免针对敏感信息的链接攻击。本文在总结现有研究成果的基础上,在发布的数据中,从保护记录的所有者与敏感属性的链接关系出发,建立了三个隐私保护模型,提供了更好的隐私保护和数据发布服务。主要的研究内容如下:(1)系统介绍了隐私保护数据发布研究领域的研究现状。首先,总结了现有的隐私保护数据发布模型,分析了每个隐私保护模型的提出背景、突出优点以及不足之处。其次,介绍了一系列实现匿名化的操作,其中重点介绍了泛化操作,它分为全局重编码和局部重编码两个类型,它们各自有优点和缺点。第三,总结了隐私保护模型的信息度量方法,它既用于度量隐私保护模型的性能,又用于匿名化算法中搜索优化的泛化或者细化节点。第四,介绍了动态的数据发布,它可以分为多次查询的发布、相继查询的发布、连续数据发布、联合数据发布四种模式。此外,还介绍了多敏感属性的数据发布中的一系列隐私保护模型。(2)提出敏感值和敏感级双重保护的隐私保护模型以应对发布的匿名数据中出现针对敏感程度的相似性攻击。敏感程度是敏感属性的一种有序分类,敏感程度泄露是指攻击者仅以有限的知识便得出攻击对象的敏感属性值的敏感程度。本文扩展了通用的隐私模型,它既拥有现有隐私模型的保护能力,又解决了敏感程度泄露问题。模型考虑了敏感值的差异并对敏感值进行分级,称为敏感级。该模型不仅适用于单个敏感属性,而且适用于多敏感属性的情形。通过多样性模型的实例来实施,并用实验验证了这一模型在隐私保护能力和执行效率方面的改进。此外,还提出了一种敏感值级别测量方法以计算敏感级。(3)建立了(w,γ,k)-匿名模型,以应对发布的匿名数据中出现的基于敏感属性有序分类和无序分类的攻击。本文从属性的分类方法着手,将敏感属性的分类方法归为有序和无序两种类型,从这个角度考虑基于分类方法的攻击。本文建立的模型在保护敏感值与个体的链接的基础上,从不同敏感级别隐私保护差异性的角度出发,避免了等价类中记录的敏感值在有序类别或者无序类别上的聚集,从而能够抵御两类相似性攻击。本文证明了模型的优化问题是NP难问题,提出了一个启发式的自顶向下局部重编码算法,实验部分验证了提出的模型的隐私保护能力。(4)在流数据环境中,建立了能够抵御基于敏感属性有序分类和无序分类攻击的隐私保护模型。该模型根据流数据的动态性特点,将流数据缓存到一个有限的窗口,根据不同时刻的数据动态调整敏感属性的分级。模型既能够防止流数据遭受基于敏感属性的有序分类即敏感程度的攻击,又能够防止遭受基于敏感属性的无序分类的相似性攻击。最后,采用自顶向下的局部重编码窗口算法实施了模型,改善了算法的执行效率。综上所述,本文对隐私保护数据发布进行了研究,提出了适用于不同隐私需求和应用环境的几个隐私保护模型,实现了隐私保护数据发布中对个体与敏感属性链接关系的保护,提高了保护隐私信息的能力。