基于匿名化的隐私保护数据挖掘技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：song656334704

【摘要】

：

近年来,信息技术和数据科学发展迅猛,并逐渐被应用于各个行业。数据挖掘可以发现潜在的数据信息和数据间的微妙关系并将其用于决策制定,然而,敏感和隐私信息也同样会被挖掘,

【作者】

：

刘乾坤

【出处】

：

哈尔滨工业大学

【发表日期】

：

2017年期

【关键词】

：

隐私保护数据挖掘 K-匿名 (L P)-多样性事务数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,信息技术和数据科学发展迅猛,并逐渐被应用于各个行业。数据挖掘可以发现潜在的数据信息和数据间的微妙关系并将其用于决策制定,然而,敏感和隐私信息也同样会被挖掘,这将会给数据提供者造成安全风险。匿名化技术是一项通过将同一等价类中的用户准标志信息变的不可区分,从而保护用户身份或敏感信息不被识别的隐私保护技术。目前的相关算法多是针对关系型等结构型数据集而设计,无法直接用于事务数据集的匿名化。少数针对事务数据的匿名化算法面临着数据高维度,稀疏型数据敏感等问题,从而导致算法时间复杂度高,信息损失大。此外,现实数据中敏感信息往往因人而异,攻击者的背景知识也往往存在局限性。因此,本文的主要研究为:针对事务数据集的匿名化隐私保护问题,本文提出了一个K-匿名隐私保护数据挖掘算法PTA,针对性的解决了事务数据集匿名化时间复杂度高和信息损失大的问题。本文将最小化信息损失的问题转换为求解TSP问题中的最短环路问题,并通过一个类似Prim算法的思想求解最短环路,再通过设计的映射、投票和筛选操作对信息损失进行优化,从而实现了事务数据集的K-匿名隐私保护。此外,本文采用分而治之的思想,以用来降低算法的时间复杂度。实验表明,该算法在时间复杂度和信息损失量方面均优于现有算法。针对个性化的匿名化隐私保护问题,本文首次提出了个性化层次事务数据集的隐私保护问题。同时,考虑到传统的L-多样性隐私保护技术存在的缺陷,本文提出了一个(L,P)-多样性的隐私保护概念,并在此基础上提出了一个贪婪的Lnn-means算法。该算法首先通过层次泛化和矩阵化方法将原始数据转换为类似关系数据集的形式,并采用聚类技术将相似度较高的事务记录进行聚类。最后,通过优先对信息损失量小且满足(L,P)-多样性的事务记录进行等价类生成,从而实现了(L,P)-多样性隐私保护。事实上,Lnn-means算法不仅弥补了传统L-多样性隐私保护技术的缺陷,还在一定程度上避免了L-多样性隐私保护可能面临的语义攻击问题,隐私保护能力更强,安全性更高。总体来说,本文针对性的解决了事务数据集和个性化事务数据的匿名化隐私保护问题。大量的实验证明,本文所提出的框架与算法在实现匿名化需求上是可行且有效的。

其他文献

乐器社招新

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

乐器社

GPS变形监测技术的现状及未来发展

GPS技术以速度快、全天候、高精度、自动化等诸多优点,被广泛运用到高层建筑、地质灾害、矿山矿井等变形监测中,由于垂直位移监测精度低、噪声干扰等问题,促使与其他技术相互

期刊

GPS技术变形监测发展趋势移动终端

超临界CO2萃取及分子蒸馏技术联用提取分离杭白菊精油

采用超临界CO2及分子蒸馏技术联用萃取和精制杭自菊精油，可使整个过程无加入有害溶剂、无溶剂残留，使产品真正达到绿色、健康；经研究发现，萃取压力30MPa、萃取温度70℃、50％乙醇溶

期刊

杭白菊超临界CO2萃取分子蒸馏杭白菊精油

基于电控制动系统的铰接式列车制动控制策略开发与验证

商用车质量大、载客量多,是公路运输的重要载体,发生事故往往较为严重,因此其主动安全性十分重要。制动系统的低效会严重影响汽车列车的制动性能,制动力的不合理分配会使某些车轮过早地抱死或激活制动防抱死系统,车轮的抱死可能会导致车辆失去转向能力、使挂车甩尾或发生“折叠”,即使在制动防抱死系统的作用下能够避免车轮的抱死,由于不能充分利用地面制动力,导致制动距离受到影响。此外,转向过程中,由于商用车惯量大、质

学位

电控气压制动系统制动力分配制动强度控制稳定性控制自动紧急制动半实物仿真

基于匿名化的隐私保护数据挖掘技术的研究

其他学术论文