基于聚类的隐私匿名方法研究

来源 :哈尔滨工程大学 | 被引量 : 2次 | 上传用户:kylinbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术、移动通信技术、位置感知技术和互联网技术的迅速发展,各领域产生了海量的用户数据,尤其是个人位置和轨迹数据,对其进行数据分析、挖掘,能获得数据潜在的规则及商业价值。然而数据是把双刃剑,只要有数据,就必然存在安全与隐私的问题。为了对数据进行分析,常常需要对存储在服务器上的数据进行发布,这无疑会给心怀恶意的用户(称为攻击者)带来可趁之机,威胁用户的隐私。针对用户信息的推理性攻击可能导致个人的兴趣爱好、行为模式、社会习惯等隐私信息暴露,严重威胁到用户的个人生命、财产安全。因此,为了保护发布数据中个人的隐私信息,需研究数据发布的技术和方法,使得发布的数据既能保护其隐私性又能保持较高的数据效用。本文以隐私保护领域的两种典型数据类型——关系数据和轨迹数据为研究背景,对隐私匿名方法展开研究,在保证数据安全性的前提下,通过相应的匿名技术,以适当的信息损失为代价,换取匿名数据更高的可用性,最终达到平衡数据可用性和隐私保护度的目的。本文的研究内容主要包括以下四个部分:首先,现有的许多基于限制发布的技术在实现k匿名算法时,采用基于分治策略的泛化技术,减少了潜在的匿名组数量;虽然基于取整划分函数的划分策略,避免了“可能减少潜在匿名组数量”这一情况的发生,但是没有考虑临时匿名组中相邻数据点的距离,在划分过程中极易产生许多不必要的信息损失,从而影响发布的匿名数据集的可用性。同时,在p-敏感k-匿名模型中,存在由于敏感属性值在聚类结果中分布不均匀,而遭到背景知识攻击,泄露敏感信息的情况。针对上述问题,本文提出基于投影区域密度划分的k匿名算法和基于敏感属性熵的微聚集算法,分别从数据可用性和隐私保护度两方面解决k匿名模型存在的问题。其次,在轨迹数据中,最大的隐私威胁就是“敏感位置泄露”,如果攻击者能够了解某人在哪些时间访问了哪些位置,那么攻击者就能够确定此人在发布数据库中的真实记录,并且能够了解此人的其他轨迹信息,进而推理得到此人的行为模式、生活习惯等敏感信息,造成个人隐私信息的泄露。对此,本文提出了一种新的轨迹相似性度量模型,和基于轨迹位置形状相似性的隐私保护算法,在轨迹聚类过程中使用贪心的思想,最大限度地提高了聚类内部轨迹之间的相似性;并且在位置聚类过程中,使用真实的原始位置信息形成数据“面罩”,满足了轨迹k-匿名,在保护轨迹数据的同时,有效地提高了轨迹数据的可用性。再次,在现实应用中,不同的移动用户对个人隐私需求的定位是不同的,例如:有的用户将自己的住址看作是个人隐私,而有的人则不这么认为。简单地将所有移动用户的隐私保护级别视为等同是不合理的。满足移动对象个性化的隐私需求,不仅会提高移动对象的隐私保护程度,还能有效地降低匿名过程中不必要的信息损失。同时,现有的轨迹匿名算法在计算轨迹相似性时还存在没有充分考虑轨迹内外在特征信息的情况。针对上述问题,本文提出了个性化轨迹k-匿名的概念,和轨迹结构相似性度量模型,并提出了基于稀疏化最小生成树聚类的个性化隐私保护算法,通过贪婪的策略生成一个近似最优的轨迹k-匿名集合,显著地提高了轨迹数据的可用性。最后,现有的轨迹匿名算法在度量相似性时,仅考虑轨迹在采样点位置的邻近性,属于移动对象的静态邻近性研究。在形成移动对象的轨迹k-匿名集合时,往往会遇到这样的情况:开始时刻相邻的移动对象可能会随着移动而逐渐远离,而开始时刻相距较远的移动对象可能会随着移动而逐渐靠近。为此,本文提出了邻域扭曲密度和邻域相似性的概念,并分别提出了基于邻域相似性和邻域扭曲密度的轨迹匿名算法,在聚类过程中充分考虑轨迹位置的动态邻近性,来解决上述问题。
其他文献
<正>民间舞是舞蹈发展的起点,是舞蹈艺术中重要的表现形式,可以说没有民间舞的产生与发展,也就没有现如今丰富多彩的舞蹈艺术形式展现在舞台上。民间舞是长期以来经过民间积
本文介绍了VISUALFOXPRO通过ODBC对SQLServer数据库的访问方法。
文化广场在不同的环境中承载着不同的社会功能。近年来,为响应建设“文化大区”、“文化强区”等政策,内蒙古多地建设或重修了许多标志性文化广场。文化广场成为地方文化体现
光波的相位分布包含了待测样品的内部结构等诸多信息。如何恢复CCD无法直接记录的相位信息是计算成像领域研究热点。叠层衍射成像(Ptychographic Iterative Engine,PIE)是一
<正>一、英语学困生的产生原因美国学习困难联合会认为学习困难是一个总的称谓,若从个体的层面上看,可界定为:学习困难个体指在获得并运用听、说、读、写、推理和数学能力的
针对现有光伏组件工程数学模型曲线拟合误差较大的问题,首先基于光伏电池的物理模型推导开路电压和最大功率点电压与辐照度之间的函数关系,改进不同工况下建模参数获取的方法
以教师继续教育机构收益为视域,通过对职前教师教育与教师继续教育机构收益项目的比较,指出了教师继续教育机构收益的特点。根据教师继续教育机构收益的特征,设计了教师继续
目前,国内碳交易试点运行顺利,有关全国统一碳排放交易市场的实施细则和时间表已经逐步出台,但是国内碳交易试点机制存在着较大差异,本文在对比七个试点的初始分配机制和市场
旅游景区是旅游产品的核心,是游和娱的主要空间载体。而等级旅游景区作为旅游景区中的精华,其空间结构演化对区域旅游业的发展和规划有着重要导向作用。我国等级旅游景区的空
目的:探讨姜黄素纳米混悬剂对D-半乳糖所致亚急性衰老模型小鼠的衰老症状改善效果及抗衰老相关指标的影响。方法:将衰老模型小鼠分为6组,空白对照组灌胃给予蒸馏水(0.2 m L/1