论文部分内容阅读
近年来,随着信息技术、移动通信技术、位置感知技术和互联网技术的迅速发展,各领域产生了海量的用户数据,尤其是个人位置和轨迹数据,对其进行数据分析、挖掘,能获得数据潜在的规则及商业价值。然而数据是把双刃剑,只要有数据,就必然存在安全与隐私的问题。为了对数据进行分析,常常需要对存储在服务器上的数据进行发布,这无疑会给心怀恶意的用户(称为攻击者)带来可趁之机,威胁用户的隐私。针对用户信息的推理性攻击可能导致个人的兴趣爱好、行为模式、社会习惯等隐私信息暴露,严重威胁到用户的个人生命、财产安全。因此,为了保护发布数据中个人的隐私信息,需研究数据发布的技术和方法,使得发布的数据既能保护其隐私性又能保持较高的数据效用。本文以隐私保护领域的两种典型数据类型——关系数据和轨迹数据为研究背景,对隐私匿名方法展开研究,在保证数据安全性的前提下,通过相应的匿名技术,以适当的信息损失为代价,换取匿名数据更高的可用性,最终达到平衡数据可用性和隐私保护度的目的。本文的研究内容主要包括以下四个部分:首先,现有的许多基于限制发布的技术在实现k匿名算法时,采用基于分治策略的泛化技术,减少了潜在的匿名组数量;虽然基于取整划分函数的划分策略,避免了“可能减少潜在匿名组数量”这一情况的发生,但是没有考虑临时匿名组中相邻数据点的距离,在划分过程中极易产生许多不必要的信息损失,从而影响发布的匿名数据集的可用性。同时,在p-敏感k-匿名模型中,存在由于敏感属性值在聚类结果中分布不均匀,而遭到背景知识攻击,泄露敏感信息的情况。针对上述问题,本文提出基于投影区域密度划分的k匿名算法和基于敏感属性熵的微聚集算法,分别从数据可用性和隐私保护度两方面解决k匿名模型存在的问题。其次,在轨迹数据中,最大的隐私威胁就是“敏感位置泄露”,如果攻击者能够了解某人在哪些时间访问了哪些位置,那么攻击者就能够确定此人在发布数据库中的真实记录,并且能够了解此人的其他轨迹信息,进而推理得到此人的行为模式、生活习惯等敏感信息,造成个人隐私信息的泄露。对此,本文提出了一种新的轨迹相似性度量模型,和基于轨迹位置形状相似性的隐私保护算法,在轨迹聚类过程中使用贪心的思想,最大限度地提高了聚类内部轨迹之间的相似性;并且在位置聚类过程中,使用真实的原始位置信息形成数据“面罩”,满足了轨迹k-匿名,在保护轨迹数据的同时,有效地提高了轨迹数据的可用性。再次,在现实应用中,不同的移动用户对个人隐私需求的定位是不同的,例如:有的用户将自己的住址看作是个人隐私,而有的人则不这么认为。简单地将所有移动用户的隐私保护级别视为等同是不合理的。满足移动对象个性化的隐私需求,不仅会提高移动对象的隐私保护程度,还能有效地降低匿名过程中不必要的信息损失。同时,现有的轨迹匿名算法在计算轨迹相似性时还存在没有充分考虑轨迹内外在特征信息的情况。针对上述问题,本文提出了个性化轨迹k-匿名的概念,和轨迹结构相似性度量模型,并提出了基于稀疏化最小生成树聚类的个性化隐私保护算法,通过贪婪的策略生成一个近似最优的轨迹k-匿名集合,显著地提高了轨迹数据的可用性。最后,现有的轨迹匿名算法在度量相似性时,仅考虑轨迹在采样点位置的邻近性,属于移动对象的静态邻近性研究。在形成移动对象的轨迹k-匿名集合时,往往会遇到这样的情况:开始时刻相邻的移动对象可能会随着移动而逐渐远离,而开始时刻相距较远的移动对象可能会随着移动而逐渐靠近。为此,本文提出了邻域扭曲密度和邻域相似性的概念,并分别提出了基于邻域相似性和邻域扭曲密度的轨迹匿名算法,在聚类过程中充分考虑轨迹位置的动态邻近性,来解决上述问题。