基于K-匿名个性化数据隐私保护算法研究

来源 :成都信息工程大学 | 被引量 : 2次 | 上传用户:jk305
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的普及,移动互联网的兴起,大数据的商业价值已经被运用到社会的方方面面,给人类社会发展带来了深远的影响。同时也使得对信息数据的收集、分析或挖掘也变得更加便捷、精确。然而,在以数据信息的共享、挖掘和知识发现等为研究目的过程中,也伴随着敏感隐私信息的泄露。如何保护个人的敏感数据不被泄露已经是当前社会一个亟待解决的问题。在进行数据发布或者共享时,就需要两方面考虑:a.数据中个人隐私不会被泄露;b.在进行数据挖掘等知识发现过程中,匿名后的数据仍具有较高的实用性和可用性。在避免数据隐私泄露的同时,保证数据的真实性、高效性是目前匿名隐私保护主要的研究方向。然而隐私保护具有个性化需求,不同的个体对隐私的定义也不一样,即便不同的个体,对相同的数据的隐私保护的程度也不一样。如何对不同的个体进行个性化隐私保护已经成为了当前研究匿名隐私保护领域热点。本文是基于个性化隐私保护需求,保护个人信息不被泄露和降低匿名化后数据损失,对数据的个性化匿名隐私保护进行分析研究,其主要的工作有:(1)结合传统的(a,k)-匿名隐私保护算法和(p,k)-匿名隐私保护算法。本文提出了一种个性化(p,a,k)-匿名隐私保护算法,算法根据用户定义的敏感属性的敏感度将敏感属性的属性值进行分级,对等价类中各等级的敏感值采用不同的匿名方法,从而实现对敏感属性的个性化隐私保护,同时能有效地抵御(a,k)-匿名模型和(p,k)-匿名模型存在的偏斜式攻击和概率攻击造成隐私泄露。实验表明,该算法比其他个性化隐私保护算法,能更好的保护个人隐私,同时可以极大地减少数据的损失度,大大提高数据的可用性,同时有近似更好的时间开销。(2)传统的用于使匿名模型生成等价类的方法由于没有考虑敏感属性取值问题,等价类中极易存在相同敏感属性的相似的敏感属性值,即使在后续进行了敏感属性值约束,也极容易引发概率攻击或者相似性攻击造成隐私泄露,其次在约束敏感属性值上造成更大的信息损失。本文提出了基于权重聚类的个性化匿名隐私保护算法,通过加权方式,对准标识符属性进行相似性的聚类,对敏感属性进行相异性的逆聚类,然后采用个性化匿名算法对聚类生成的每个簇进行个性化匿名约束,实现个性化隐私保护。通过实验表明,该算法能更好地保护个人隐私,同时该算法极大地降低了泛化过程中信息的损失。综上,本文主要研究的是针对个性化匿名隐私保护算法,通过研究用户个性化隐私保护的需求,为数据信息提供保护方法,相比于传统的匿名算法,本文提出的算法能更好地保护个人隐私不被泄露,同时极大地减少了匿名数据的信息损失,提高了数据的可用性。
其他文献
目的:研究骨肿瘤保肢治疗中高温水浴灭活骨重建骨缺损可能的成骨机制。 材料与方法:选取新西兰大白兔32只,随机按观察时间分为4、8、12、24周分为4组,8只/组。取双侧胫骨
低碳经济实质上是经济发展方式、能源消费方式、人类生活方式的一次新变革,它将全方位地改造建立在化石燃料基础上的现代工业文明,转向生态经济和生态文明。本文就连云港发展
以黑荆树叶片为外植体,在MS培养基中添加不同质量浓度的细胞分裂素6-苄氨基嘌呤(6-BA)和细胞生长素2,4-二氯苯氧乙酸(2,4-D),诱导培养出愈伤组织,采用香草醛-硫酸法和Folin-Cioca
本文主要考察中原官话两代间一级元音的变化情况。一种语言或方言的现状包含了历史演化的遗留和未来趋势的征兆。语音的共时年龄差异有可能提供历时演变的轨迹,而不同年龄说话人的表现则会提供具体的例证。由于大城市中由年龄造成的语言差异大于乡村,因此,本文采用的语料来源于中国语言资源保护工程(PPLRC)调查所得的河南省七个地级市的两代录音。这七个地级市包括开封,商丘,许昌,漯河,周口,南阳及驻马店。本文根据“
科学技术的迅猛发展使得人们的生活越来越便利,与此同时,日益剧增的数据量加大了人们获取信息的难度。数据挖掘技术的兴起与发展有利于解决人们信息获取的难题,但是,数据挖掘的大规模应用正在严重危害着人们个人隐私数据的安全。人们享受数据挖掘带来的便利的同时,正在承担着个人隐私泄露的风险。面向数据挖掘的隐私保护技术的研究旨在保护人们隐私数据的同时进行有效的数据挖掘。综上所述,面向数据挖掘的隐私保护技术是一个亟
大学生沉迷网络的主要心理原因是自律、自控能力差,希望通过上网摆脱孤寂或压抑情绪,逃避学习困难。要改变这种状况,必须从大学新生的教育与管理开始,关爱学生、以生为本,丰
本文从常见的文本语义功能入手,用简洁生动的隐喻思维探索其在英语教学中的运用效果,旨在促进汉语言母语语境中两种语言内部与其之间的语义映射关系的交融,从而为新课改背景
森林地上生物量(Aboveground Biomass,AGB)是评估森林生态系统生产力和健康状况的重要参数。要进行大面积森林地上生物量的高精度估算,需要有效利用多源遥感数据的优势,选择合适的模型,并实现估算范围外推。本研究主要分为两个部分:(1)基于不同遥感数据(机载LiDAR数据、机载LiDAR与机载高光谱数据结合),利用Boruta算法进行特征选择,比较六种回归模型的生物量估算精度,选出最优
<正>5月18日,由中国纺织工业联合会指导,中国纺织信息中心主办的"‘兴吴·金梭奖’第四届全国十佳纺织面料设计师"评审会在北京成功举办,兴吴呢绒科技有限公司对评审会给予大
磁悬浮平面电机是一种先进的运动驱动装置,具有良好的动态性能,可以获得很高的运动精度,在集成电路制造、微纳制造等先进制造装备的驱动中具有广阔的应用前景。论文主要研究