论文部分内容阅读
微数据是指与个人、公司、社团等个体相关的数据,这些数据对趋势分析、疾病研究、市场分析等都具有重要的意义。因此,很多组织都在收集或发布大量的微数据。但是,微数据的发布会对数据中个体的隐私构成一定的威胁。因此,如何保护微数据发布中的个体隐私,已成为数据库和信息安全领域亟待解决的问题。
在以数据挖掘为目的的微数据发布中,匿名技术已成为保护个体隐私的重要手段,其核心思想是:首先删除微数据中的显式标识符,使攻击者无法通过微数据本身识别出敏感信息所属的具体个体。然后,依据一定的约束,将微数据基于准标识符划分为若干个等价类,并将每个等价类中各元组在准标识符上的值都变换为相同的值,使攻击者无法通过与外表链接重新标识出敏感信息所属的具体个体,从而达到保护个体隐私的目的。基于匿名技术的隐私保护是以一定的信息损失为代价的。因此,匿名技术的研究目标就是:在保护个体隐私的同时,如何最小化信息损失,即最大程度地保留匿名数据的可用性,使数据分析者从匿名数据中挖掘的知识与从原始数据中挖掘的知识一致。
κ—匿名模型和敏感属性多样性模型是实现基于匿名技术的隐私保护的主要方法。近年来,该方面的研究已成为数据挖掘和信息安全领域一个活跃的研究方向。本文研究微数据发布中隐私保护的匿名技术,主要内容包括:泛化/隐匿技术,微聚集技术,泛化与微聚集的混合技术,面向数值型敏感属性的多样性模型,敏感值个性化保护模型等,主要的研究成果如下:
(1)提出一个基于泛化的高效κ—匿名化算法—c—modes—KACA算法,提高了KACA算法在κ—匿名化分类型大数据集的效率。该算法结合c—modes算法的高效性和KACA算法的高数据可用性,首先利用c—modes算法高效地将大数据集划分为若干个大类,再利用KACA算法将大于2κ-1的类划分成大小在[κ,2κ-1]之间的类。实验表明,c—modes—KACA算法相对于KACA算法在信息损失量差别不大的情况下,大大提高了处理效率。
(2)提出多变量免疫克隆选择微聚集算法(ICSMA)和面向微聚集技术的匿名数据质量评估模型(EM4ADOM)。ICSMA可以在全局解空间中搜索全局最优解。EM4ADOM可以更科学地评估匿名数据的质量。实验表明,相对于MDAV算法,ICSMA所产生的匿名数据信息损失少、泄露风险低。EM4ADOM模型则可以从多角度评估微聚集算法所产生的匿名数据的质量。
(3)提出一种面向混合型数据的混合κ—匿名技术。该技术的基本思想是:对于混合型数据,我们采用欧氏距离来度量数值型属性部分的距离,采用层次距离来度量分类型属性部分的距离,并将这两种距离相结合来度量混合型数据的整体距离。然后,将数值型数据的均值向量与分类型数据的最近公共泛化结合作为类质心,并使用该类质心替代对应类中所有元组在准标识符上的值,以实现κ-匿名。实验表明,混合κ-匿名技术能有效地解决混合型数据的κ-匿名化问题。 (4)提出面向数值型敏感属性的分级多样性模型,并基于该模型,设计了3个算法:l-Incognito,l-V-MDAV和l-MDAV。l-V-MDAV算法和l-MDAV算法分别是V-MDAV算法和MDAV算法的改进。实验表明,相对于敏感属性未分级的l-Incognito算法,敏感属性分级的l-Incognito算法能够生成多样度更高的匿名表,因此,可以更好地抵制同质性攻击和背景知识攻击。相对于V-MDAV算法和MDAV算法,l-V-MDAV算法和l-MDAV算法能以近似的时间代价和信息损失获得安全性更高的匿名数据。
(5)提出完全(α,κ)-匿名模型,实现了面向敏感属性值的个性化隐私保护,并基于聚类思想,提出一个(α,κ)-聚类算法。实验表明,完全(α,κ)-匿名模型可以有效地实现敏感属性值的个性化保护。