基于匿名化的隐私保护数据挖掘技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:song656334704
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息技术和数据科学发展迅猛,并逐渐被应用于各个行业。数据挖掘可以发现潜在的数据信息和数据间的微妙关系并将其用于决策制定,然而,敏感和隐私信息也同样会被挖掘,这将会给数据提供者造成安全风险。匿名化技术是一项通过将同一等价类中的用户准标志信息变的不可区分,从而保护用户身份或敏感信息不被识别的隐私保护技术。目前的相关算法多是针对关系型等结构型数据集而设计,无法直接用于事务数据集的匿名化。少数针对事务数据的匿名化算法面临着数据高维度,稀疏型数据敏感等问题,从而导致算法时间复杂度高,信息损失大。此外,现实数据中敏感信息往往因人而异,攻击者的背景知识也往往存在局限性。因此,本文的主要研究为:针对事务数据集的匿名化隐私保护问题,本文提出了一个K-匿名隐私保护数据挖掘算法PTA,针对性的解决了事务数据集匿名化时间复杂度高和信息损失大的问题。本文将最小化信息损失的问题转换为求解TSP问题中的最短环路问题,并通过一个类似Prim算法的思想求解最短环路,再通过设计的映射、投票和筛选操作对信息损失进行优化,从而实现了事务数据集的K-匿名隐私保护。此外,本文采用分而治之的思想,以用来降低算法的时间复杂度。实验表明,该算法在时间复杂度和信息损失量方面均优于现有算法。针对个性化的匿名化隐私保护问题,本文首次提出了个性化层次事务数据集的隐私保护问题。同时,考虑到传统的L-多样性隐私保护技术存在的缺陷,本文提出了一个(L,P)-多样性的隐私保护概念,并在此基础上提出了一个贪婪的Lnn-means算法。该算法首先通过层次泛化和矩阵化方法将原始数据转换为类似关系数据集的形式,并采用聚类技术将相似度较高的事务记录进行聚类。最后,通过优先对信息损失量小且满足(L,P)-多样性的事务记录进行等价类生成,从而实现了(L,P)-多样性隐私保护。事实上,Lnn-means算法不仅弥补了传统L-多样性隐私保护技术的缺陷,还在一定程度上避免了L-多样性隐私保护可能面临的语义攻击问题,隐私保护能力更强,安全性更高。总体来说,本文针对性的解决了事务数据集和个性化事务数据的匿名化隐私保护问题。大量的实验证明,本文所提出的框架与算法在实现匿名化需求上是可行且有效的。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
期刊
GPS技术以速度快、全天候、高精度、自动化等诸多优点,被广泛运用到高层建筑、地质灾害、矿山矿井等变形监测中,由于垂直位移监测精度低、噪声干扰等问题,促使与其他技术相互
目的了解干部保健对象身体健康状况及疾病谱规律,为该人群预防保健工作提供基础资料和理论依据。方法对2010年干部保健对象疾病谱采用顺位及构成比法进行分析。结果患病及指
采用超临界CO2及分子蒸馏技术联用萃取和精制杭自菊精油,可使整个过程无加入有害溶剂、无溶剂残留,使产品真正达到绿色、健康;经研究发现,萃取压力30MPa、萃取温度70℃、50%乙醇溶
为规范二手房交易办证,减少因面积误差而产生的纠纷,南京市二手房登记程序有所调整,即先领取新证的房屋图,然后再办证。这是南京市房管部门推出的又一项便民举措。
商用车质量大、载客量多,是公路运输的重要载体,发生事故往往较为严重,因此其主动安全性十分重要。制动系统的低效会严重影响汽车列车的制动性能,制动力的不合理分配会使某些车轮过早地抱死或激活制动防抱死系统,车轮的抱死可能会导致车辆失去转向能力、使挂车甩尾或发生“折叠”,即使在制动防抱死系统的作用下能够避免车轮的抱死,由于不能充分利用地面制动力,导致制动距离受到影响。此外,转向过程中,由于商用车惯量大、质
一个企业、民族或国家都有其存在的特定历史文化背景,而且这种文化影响会渗透到其经济生活的方方面面.本文以何斯德(Hofstede,G.H.)的文化价值观念为基础,对美国独特的文化特
本文对美国学者里夫金提出的工作终结论提出质疑.认为在科技革命完成时期,虽然由于新技术的广泛采用会大量代替劳动力,从而使失业率提高,但技术革命也会导致很多新行业和新部