论文部分内容阅读
随着网络信息技术的高速发展,大量个人信息被政府部门、商业机构等存储、发布。数据发布作为信息共享的一种手段,在为数据交换和数据共享提供便利的同时,也对个人隐私带来了威胁。虽然数据发布机构会采取措施隐藏发布数据中的个人身份标识,但是通过在多个公开的数据源间进行连接操作往往会导致意想不到的隐私信息泄漏问题。K-匿名模型可以保护隐私数据不受链接攻击,能够有效地解决身份泄漏问题,但其对敏感属性泄露没有相应的保护机制,现有的其它隐私保护技术也没有考虑敏感属性的敏感度问题。论文对当前数据发布过程中的匿名化技术进行分析、研究,提出了一种新的匿名方案及算法,主要研究内容及贡献如下:针对现有数据发布隐私保护技术在匿名化过程中没有考虑敏感属性敏感度的问题,结合实际应用中对不同敏感度的敏感属性应该给予不同保护强度的实际需求,提出了一种基于敏感属性敏感度分组的(p,a)-Sensitive K-匿名隐私保护模型。该方法首先根据敏感属性的敏感度进行分组,然后给各敏感组设置不同的组约束。实验结果表明该方法可以明显地减少数据发布过程中的隐私泄漏,增强了数据发布的安全性。通过分析当前匿名泛化算法的不足,将聚类分析的思想引入到(p,a)-Sensitive K-匿名模型中,将K-匿名问题转化为K成员聚类问题,把聚类中的距离计算方法应用到(p,a)-Sensitive K-匿名模型中来计算元组之间的距离,使每个类中的元组尽可能的相似,并给出相应的距离定义和信息损失计算公式以及聚类泛化算法,对算法进行了正确性及复杂度分析,并通过实验进行了验证。针对现有泛化策略灵活性差、信息损失较大、并且存在过度泛化的问题,论文对准标识符属性的不同类型采用了不同的泛化策略,并在聚类过程中综合考察匿名化处理带来的信息损失,使用了更为灵活的数据泛化策略。实验结果表明,与传统方法相比,该方法能够有效减少数据匿名化处理所带来的信息损失。最后,分析了论文研究工作中还存在的几点不足以及需要改进的地方,给出了论文的下一步工作方向。