论文部分内容阅读
在各式各样的数据库应用中,隐私保护越来越受到人们的关注,因为在数据库的信息组织与管理中出现了大量隐私泄露现象。对个人而言,由于工作和生活的关系,常常需要向医院、银行和企业等机构提供自己的个人信息。这些信息可能会被发布以满足某些机构的运作或者满足科学研究的要求等。但是,这些信息中往往含有一些敏感信息,即个人不愿意被他人所获知的隐私信息。如果数据发布后隐私信息被泄露,将会侵犯到个人隐私权。所以,隐私保护已成为当今信息安全领域的主要课题。数据匿名化是实现隐私保护的一个有效手段,匿名化技术能在保护隐私信息的同时,保证对外发布数据的真实性,如何对含有隐私信息的数据进行匿名化已经吸引了大量研究工作。然而,现有的匿名发布技术大多数是基于静态数据集进行的,即假设数据集不经过任何更新,只进行“一次”发布。也就是说,大部分隐私保护匿名算法都不支持数据集经过插入、删除和修改后的重发布。但是,真实数据集往往随着时间的推移不断被更新,更新后的数据集再次被发布出去,如果把现有的针对静态数据集匿名技术直接应用于动态数据集重发布上,将会导致大量隐私信息的泄露。最近,有少数研究者开始关注如何对动态数据集进行匿名化,但是,他们所考虑的更新情况并不全面。在很多领域,有些属性值可能发生改变,而有些属性值是不会被更新的。例如,在医学领域,某人所患疾病可能随着时间转化为另一种疾病或者痊愈。然而,一旦病人患上永久疾病,如“肺癌”,将不可能痊愈或转化为另外一种疾病。所以,针对此类情况的动态数据集匿名化将面临着更多的挑战。本文采用医疗数据,对含有永久疾病动态数据集的匿名化进行研究。以典型的现有匿名化方法为例,全面地讨论了已有方法面对含有永久疾病动态数据集发布可能造成的各种泄漏风险。继承了基于“不变性”的思想,提出有效的匿名算法来解决上述问题。实验结果显示,该算法具有较高的隐私保护度和较低的信息损失度。