论文部分内容阅读
收集由政府、企业和个人产生的数字化信息,为以知识和信息为基础的决策创造了巨大的机会。在互惠互利的带动下,有需求的各方之间可进行数据交流和发布。然而,在其原来形式的数据中通常包含敏感的个人信息,公布这些数据会侵犯个人隐私。集合型数据发布下的隐私保护是一个重要并富有挑战的难题。大多数现有的技术使用泛化和整体性删除方法,而我们提出了一种部分(局部)删除方法对集合型数据进行匿名化。该方法保证无论攻击者拥有多少数目的先验知识,匿名化后数据中不再出现关于敏感信息的强关联规则。该方法不仅大幅降低了信息损失,同时可根据下游使用场景要求,提供倾向保持原始数据分布或保护可挖掘的有用的关联规则的选择。初步评估显示,我们的方法相比于经典的方法:在保持原始数据分布上优于其它方法100倍以上,保留了更多数目的可挖掘有用的关联规则并只引入了少数虚假的规则,同时信息的损失平均减少了30%左右。