论文部分内容阅读
信息技术的发展使政府、公司和个人收集和存储信息变的更加便利,这也为基于知识的决策系统带来了方便。拥有数据的各方受互相利益的驱使,或者受规章制度的制约,需要交换数据或者把相关数据对社会发布。如果把数据不经处理就直接发布会导致个人泄露隐私。目前隐私信息的保护主要依靠国家有关规章制度或者行业自律协议来限制发布数据的形式,或者要求数据发布单位经个人的同意才能使用和存储个人数据。然而,这些要求有严重的不足之处,主要表现在使数据严重失真,或者需要设计一个可信层。因此,隐私保护数据发布最重要的任务是设计相关的应用模型或者工具,使公开或者共享的数据在复杂的敌对环境情况下依然可以保护个人的隐私信息,而数据的效用不会受到太大的影响。许多研究团体在隐私保护的数据发布方面提出了不少有实际应用价值的处理策略,但是由于这个研究方向发展较晚,仍然有许多问题需要解决。已经存在的隐私保护数据发布策略主要使用概化/隐匿的方法实现,使用聚类分析技术的方案还很少。在研究中本文作者发现,使用数据挖掘中的聚类分析技术可以提高数据发布时的效用,减少隐私泄露风险。本文主要在以下几个方面开展研究工作:首先,基于密度聚类提出一种消除离群点干扰的k-匿名算法。该算法主要针对目前概化方法实现k-匿名化时需要穷尽搜索解空间来寻找最优化解,而这导致算法复杂度是NP难度问题,且匿名化以后的数据信息损失过大而失去数据效用。另外,已经存在的基于聚类的数据发布算法在实现k-匿名时,固定簇的大小为k,且没有考虑数据的分布情况以及数据集中是否存在离群点。而真实的数据集呈现均匀分布仅仅是个理想状态,离群点的存在也是个普遍现象。因此,本文提出一种消除离群点干扰的k-匿名算法,该算法在聚类实现匿名化过程中充分考虑信息损失和离群点的处理,在保证发布的匿名化数据总信息损失最小情况下,更好的实现隐私保护和数据效用的平衡。具体过程为:首先,使用密度聚类方法把数据集分成簇,在划分数据集的同时排除离群点干扰;其次,以信息损失为度量标准调整划分的簇大小,并再次排除数据集划分时忽略的离群点,其最终目的是在达到隐私保护的情况下,降低信息损失和增加数据效用,并在两者之间取得平衡。最后,对数据集分布不同情况下算法的正确性和复杂性做了理论分析,并以仿真实验检测算法的有效性,以及详细分析了实验结果。综合分析和实验对比结果表明,本章所提出的算法在数据效用方面比未排除离群点算法信息损失明显降低。其次,针对k-匿名的隐私保护数据发布模型可以阻止连接攻击,却不能防止同质攻击和背景知识攻击的情况,根据不同的敏感属性值保护度提出三种不同的(α, k)-匿名模型,并分别设计了三个不同的基于聚类的算法予以实现。具体为:为保护敏感属性的特定敏感值提出单敏感值(α, k)-匿名模型;为保护敏感属性的全部敏感值提出多敏感值(α,k)-匿名模型;为实现高敏感度属性值和低敏感度属性值个性化保护,即高敏感度属性和低敏感度属性分别设置不同的保护度,提出基于半监督聚类的(α, k)-匿名模型。在充分研究了数据集距离度量标准的基础上,根据数据集内数据的不同属性特点,即数据包含数值型数据属性和离散型数据属性,给出了数据的详细映射和处理方法,使数据集中相关距离可以在同一个度量空间方便的计算,彻底避免了以信息损失作为数据对象之间距离的情况。文中对算法的正确性和复杂性做了详细的分析,以信息损失和执行时间检验算法的效果,并详细分析了实验结果。由算法的正确性分析、时间复杂度分析以及实验结果的分析可知,采用数据映射的方法明显提高了匿名化效率,参数α的引进明显降低了隐私泄露风险以及增加了隐私保护的灵活性。再次,提出一种聚类基础上增强数据发布效用的隐私保护模型并设计算法予以实现。该隐私保护的数据发布模型主要解决l-多样性模型仅考虑保证每个匿名化簇内的不同敏感值个数至少为l,而忽略每个簇的大小,导致隐私泄露和信息损失增大。因此,本文提出限制每个簇的数量并限制敏感属性的隐私保护度。同时,作者试着使用概率联合分布度量数据对象的相似性,以提高聚类质量和匿名化数据的效用。在聚类匿名化过程中详细论述了簇的合并、调整和概化策略,结合参数k和l提出隐私保护度概念,指出使用概化技术达到(k, l)-多样性最优化是NP-难问题,并分析了本章采用的聚类算法复杂度。实验结果和详细分析表明该方法可以有效减少执行时间和信息损失,提高查询精度。最后,提出一种基于弱聚类的数据流隐私保护框架,给出了数据流k-匿名算法。解决已有的数据发布技术主要用来保护静态数据集,而没有考虑越来越多的数据流发布情况。算法分为在线部分和离线部分。在线部分使用特征向量和聚类特征树对数据流快速弱聚类,把数据流分成不同初始簇;离线部分对每个满足预定义信息损失和延迟约束的簇进行匿名并输出,同时删除聚类特征树上已经输出的簇,动态维护聚类特征树的变化。使数据流达到k-匿名并满足约束延迟的同时实现隐私保护。最后实验结果和详细分析表明,本章算法信息损失较小和效率较高。