基于K-匿名技术的数据发布隐私保护方法研究

来源 :武汉理工大学 | 被引量 : 5次 | 上传用户:shinboy_zsl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网和信息技术的飞速发展,人们可以更容易地从数据中提取未知的、隐含的和具有潜在价值的信息,这就引发了在数据发布过程中的敏感隐私泄露问题。在数据发布过程中,敏感隐私保护越来越受到重视。匿名化隐私保护技术已成为数据库和信息安全领域的研究热点,引起了工业界和学术界的广泛关注。其中匿名化隐私保护技术中的K-匿名技术研究最热门,也是数据发布过程中经常采用的技术。本文主要从匿名化隐私保护技术的匿名模型和匿名化算法这两个角度进行研究。针对敏感属性的多样性和算法的执行效率,给出了两种改进算法。通过实验验证了本文算法的可用性和有效性。本文所完成的主要研究工作及成果如下:1.分析了当前敏感隐私保护的现状和常用的隐私保护技术,对基本的K-匿名模型进行研究。针对该模型划分后等价类中的敏感属性值可能存在相似性从而导致发布后的匿名数据表可能会遭受同质性攻击,造成隐私泄露的问题。在基本K-匿名模型的基础上,添加一个敏感隐私保护度参数来设置敏感属性的敏感度,使划分后的等价类中的敏感属性保持多样性。2.在确认模型的前提下,为确保划分后等价类中敏感属性的多样性,引入一个敏感隐私保护度参数来设置敏感属性的敏感度。在局域泛化算法KACA的基础上给出了第一个改进算法——基于敏感隐私保护度的K-匿名改进算法(即S-KACA算法),该算法通过引入敏感隐私保护度,改善划分后等价类中的敏感属性的多样性,阻止隐私泄露。3.改进的S-KACA算法对划分后敏感属性相似的等价类再做归并处理,加大数据泛化量和距离计算量,导致算法效率降低,不适用大规模的数据集。由此给出了第二个改进算法——基于敏感隐私保护度的KACA优化算法(即Kprototypes-S-KACA算法),该算法首先通过聚类算法预处理数据集,然后再对数据集进行匿名化处理,有效降低数据泛化量和距离计算量,提高算法效率。4.从算法运行时间、信息损失量、隐私泄露风险、算法可扩展性四个方面进行实验对比分析来说明改进算法的可用性,有效性,优越性。并将改进算法应用于电子商务系统中实现用户敏感隐私数据保护功能。
其他文献
在数据挖掘技术日益增强的大背景下,各种网络的隐私安全所受到的威胁也日益增多,网络数据结构的隐私保护愈发重要。对于表格化数据,敏感属性抹除的方式不能有效的抵御攻击。
对于汉字拼音化这一问题,学术界存在着不同的看法:一部分学者认为汉字应该拼音化,其主要观点是:第一,汉字拼音化与国际接轨;第二,汉字使国家文盲增加;第三,汉字不便于计算机
《哈姆雷特》是西方的一部著名的戏剧文学,在经过了我国影视艺术家的创作之后发生了怎样的改变,国内外的文化、社会背景在主客观上都有着比较大的差异,在一些改编剧中不同的
<正>我国刑法关于量刑的规定简单而粗糙,虽然近几年来最高人民法院司法解释对于量刑规则体系有所补充、发展,但是简陋的面貌并无根本性改观。我认为,完善我国量刑制度有两项
我国选秀节目自2005年的《超级女声》到2012年的《中国好声音》再到2017年的《中国有嘻哈》,一直处在不断地摸索和发展中,近几年随着手机端和视频APP的迅猛发展,选秀节目进入
1例75岁男性患者,因慢性阻塞性肺疾病急性加重入院,入院第5天,给予口服伏立康唑片0.2 g,q12h抗真菌治疗,用药后1天,患者出现视物模糊、朦胧、视近物不清等视觉障碍表现,考虑
文章在分析国有企业党建工作重要性基础上,提出了加强和改进国有企业党建工作的思路,主要包括:企业党组织嵌入公司治理结构,为党建工作提供制度保证;党建工作与企业管理深度
采用三官能度的聚氧化丙烯醚醇、聚乙二醇,合成了吸水膨胀率在0~200%的聚氨酯弹性体。探讨了游离—NCO、聚醚多元醇种类及分子量、氧化乙烯醚(EO)与氧化丙烯醚(PO)链节比、扩
目的 研究新生儿神经行为测定在早产儿神经心理发育中的作用和意义.方法 选择 2006年1月至2011年1月在北京市宣武区妇幼保健院产科分娩的早产儿90例,分别于出生后2~3 d、12~14
目的对应用心理护理干预模式对在ICU接受治疗的重症疾病患者实施护理的临床效果进行研究。方法选择我院收治的在ICU接受治疗的重症疾病患者86例,随机分为对照组和观察组,平均