基于敏感性语义关系的数据发布隐私保护研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:hhmlyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实中,出于统计和研究等目的,一些机构和组织往往需要发布一些包含敏感信息的个人数据,如医疗信息、人口普查信息等。怎样在发布个人数据的同时又能防止个人敏感信息泄露成为数据发布隐私保护中的一个重要问题。   k-匿名模型常用来解决数据发布中的隐私保护问题,但它并没有考虑敏感属性值的分布,容易受到同质攻击和知识背景攻击。l-diversity模型考虑了敏感属性字面上的差异,但忽略了敏感属性值之间的语义相似关系,同样容易受到相似性攻击。相似性攻击是指在同一个等价类中的敏感属性值虽然不同,但它们语义上相似,攻击者仍然能获取目标个体大致的敏感信息。相似性攻击作为属性泄露的一种方式是普遍存在的,并会对个人隐私保护构成严重威胁。   针对以上存在的问题,本文提出以下解决方法:   (1)为了有效地解决属性泄露问题,防止相似性攻击的发生,本文提出了基于敏感属性语义关系的α-similarity k-anonymity隐私保护模型。该模型在k-匿名有效解决身份泄露的基础上,增加对敏感属性语义关系的限制,要求等价类中敏感属性值的语义关系不大于预先给定的参数α;并根据敏感属性值的相似度对等价类进行反聚类处理,避免语义关系相似的敏感属性值密集发布所带来的相似性攻击问题。   (2)敏感属性按照其属性域的不同可以分为数值属性和分类属性两种。对于数值属性,属性值之间的数值差异自然的描述了它们之间的不相似程度。对于分类属性,由于属性值并不是严格意义上有序的,目前缺少一种有效的方法对分类敏感属性值的语义相似性进行计算。在此,本文从语义学角度构建分类树模型,并使用该模型来衡量分类敏感属性值之间的语义相似程度。   (3)关于算法方面,本文首先提出改进的Incognito算法来获取符合α-similarity k-anonymity要求的匿名数据集。由于Incognito算法采用的是自底向上全域泛化方式,在匿名过程中会造成严重的信息丢失。为此,本文又提出了基于局部重编码的多维空间分割算法来解决匿名过程中的信息丢失问题。   与现有的k-匿名模型和l-diversity模型相比,α-similarity k-anonymity模型不仅考虑了身份泄露问题,同时还考虑了针对敏感属性的属性泄露问题,从而降低个人敏感信息泄露的风险。理论分析和实验结果表明新的隐私保护模型能够很好的防止相似性攻击的发生,提供更好的隐私保护效果,并且,匿名数据的信息丢失量并没有显著的增加。  
其他文献
随着农民收入的稳定增长和政府对农村安全用药的高度重视,农民整体健康水平有了显著的提高,消费潜能不断地释放也使得农村售药终端所蕴含的市场变得越来越清晰。但是由于相关
随着Internet的迅速发展,Web资源成指数级增长使得对Web资源的管理显得更加困难。如今,大量隐藏着木马、病毒和非法广告等程序的恶意网页在Web网络中泛滥。这些网页采取作弊
随着多核并行计算技术的普及,如何开发适应多核体系架构的软件逐渐成为人们关注的焦点。然而,要想真正发挥出多核处理器的最佳效力,软件的开发一定要跟上多核硬件的开发速度,
异构数据集成在现代工业信息化过程中起着很重要的作用,其中集成各个异构数据已经成为系统集成的一个十分重要的技术。由于企业系统在发展的各个阶段采用不同的数据存储格式,
随着信息新技术的快速发展,人们直接从试验中得到的数据正以指数级规模增长,并且掺杂着许多不确定信息和冗余信息,因此直接对数据进行处理已变得越来越艰难。研究生物数据特
研究时间序列异常模式挖掘具有重要的学术价值和现实意义。针对时间序列连续、非线性、高维的复杂结构,探索了时间序列异常模式挖掘的新途径。研究了基于分类的时间序列异常
随着互联网技术的发展,即时通讯软件越来越多,其业务也越来越复杂,占用的系统空间也越来越庞大。如今人们使用即时通讯软件进行日常的沟通和交流已经成为一种习惯,很多用户可
网络社交媒体为人们提供了快速便捷的交流环境,通过这些社交平台人们可以对社会舆论热点发表自己的观点和看法,情感分析是一种从观点和看法中分析人们所表达情感的技术,已成
电子商务通常是指是在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于浏览器/服务器应用模式,买卖双方不谋面地进行各种商贸活动,从而实现消费者的网上购物、
Internet的开放性要求Web服务能够以丰富、灵活的交互方式向广大用户提供个性化的、可定制的服务。如何通过协商机制来满足服务请求者和提供者双方的需求,一直是服务计算研究