论文部分内容阅读
计算机处理能力、存储技术以及网络技术的快速发展极大地提高了信息电子化程度,也使得信息共享较之以前来得更为容易和方便。但是,随之产生的隐私泄漏现象也屡见不鲜,引起人们对于信息共享的恐慌,因而不愿意提供自身拥有的信息。信息共享中隐私保护研究的目标是考虑如何在保证私有的敏感信息不被泄漏的情况下,实现有效的信息共享。近年来,这方面的研究已成为数据库和数据挖掘领域一个活跃的研究方向。本文首先研究了数据共享中匿名保护问题,接着以频繁模式为知识的表现形式,研究了数据共享中的敏感模式保护,频繁模式共享中的敏感模式隐藏,以及频繁模式共享中的推理控制等问题,主要的研究成果如下:(1)针对数据共享中的匿名保护问题,提出了一种基于聚类的l-多样化实现方法。该方法能够很好地满足数据共享中的匿名化需求,防止与个体相关的敏感属性值的泄漏。同时,该方法消除了传统匿名化处理时的概念层次结构限制,并在聚类过程中综合考察匿名化处理带来的信息损失,使用更为灵活的数据概化策略。实验结果表明该方法能够有效减少数据匿名化处理所带来的信息损失。(2)针对数据共享中的敏感模式保护问题,提出了一种基于弱模式树结构的数据净化方法。该方法能够在敏感模式保护过程中,综合考虑数据净化对非敏感模式的副作用。它通过快速遍历弱模式树的相关部分,计算敏感项和敏感交易记录的分数,并为每一条敏感交易记录确定其候选项。然后,选取具有较高分数的敏感交易记录,并从其中删除候选项来实现对敏感模式的保护。实验结果表明该方法能够在满足隐私保护需求的基础上,有效地降低数据净化对非敏感模式的影响,提高共享数据的可用性。(3)针对频繁模式共享中的敏感模式隐藏问题,提出通过无隐私泄漏的频繁模式集,来实现在频繁模式共享中对敏感模式存在性的隐藏,提供强的隐私保护能力;随后证明了找到一个最大的无隐私泄漏的频繁模式集是NP难问题,然后提出了基于敏感项的模式净化方法,并证明该方法能够保证产生一个无隐私泄漏的频繁模式集;在此基础上,给出三个具体的基于敏感项的模式净化启发式算法,并通过实验分析比较算法的性能。(4)针对频繁模式共享中的推理控制问题,提出通过阻塞相关推理通道来实现在共享中对敏感模式频繁性的隐藏。基于分析频繁模式挖掘结果中存在的模式相关性,将可能存在的推理通道分为三种类型:超模式推理通道、子模式推理通道以及链式推理通道;并指出了已有研究在推理控制方面存在的隐私泄漏问题。然后,基于模式净化的思路,提出了两个推理控制算法,并通过实验对算法的性能进行了比较分析。