数字图书馆敏感数据匿名发布若干关键技术研究

来源 :东华大学 | 被引量 : 9次 | 上传用户:w903756205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,数字图书馆的资源日益丰富和各项服务不断创新,用户隐私问题也日益突出。面向各种应用的数据共享和分析服务的数据匿名发布技术一方面具有较好的适用性、通用性和实用性等优势,另一方面又能够充分尊重用户的隐私,有利于数字图书馆应用数据的充分利用和信息共享,从而促进图书馆开展各项服务工作。然而,数字图书馆的应用数据有一定的具体领域特征,隐私保护诉求和数据形式存在多样性。本文通过对现有各种匿名模型及匿名化技术的研究和分析后,指出目前通常的数据匿名发布技术不足以解决数字图书馆敏感数据发布多种场景下的隐私保护问题。因而,本文对数字图书馆敏感数据匿名发布的若干关键技术进行了一些研究,论文的主要工作如下:(1)面向应用的敏感数据匿名发布框架的研究针对当前敏感数据隐私保护中所面临的种种挑战,创新地提出了一种适应应用需求的数据发布体系结构框架方案——基于领域知识面向应用的敏感数据匿名发布框架,并对框架模块进行了初步介绍,同时还给出了一个个性化自适应的隐私保护数据发布算法。该框架尝试使用自适应的机制,不但能满足不同的数据应用需求而且又能满足数据所有者不同的隐私保护需求。在自适应数据发布算法中,联合采用了准标识属性QI泛化和敏感属性SA泛化以获得符合匿名发布原则的匿名数据表,从而在满足隐私保护需求的同时减少了发布数据的信息损失,即尽可能地提高了发布数据的信息精度。(2)基于泛化的个性化匿名数据发布技术的研究本文结合匿名模型的最新发展,提出了一个可以应用于数字图书馆敏感数据发布的个性化敏感数据发布模型——(P,α,k)-匿名模型和基于泛化技术的数据匿名化实现算法,从面向个体和敏感属性值角度出发,充分考虑了图书馆特殊用户隐私保护诉求和大众用户的普遍性隐私保护需求。文中首先介绍了相关工作并在分析现有个性化匿名原则的基础上对个性化隐私约束参数进行了建模,并提出了(P,α,k)-匿名模型;接着提出了一个基于泛化技术的启发式TopDown—LA算法,并介绍了该算法应用的局部重编码和特化处理技术,保证了算法获取最小k-泛化,最大限度地提高匿名化表精度,而后还分析了算法复杂性和正确性。最后通过真实数据实验,验证了这种启发式的个性化匿名算法可行性。该算法能充分满足个性化隐私保护需求进行匿名发布数据,相比Basic Incognito和Mondrian算法信息损失少,算法性能良好。(3)用户身份保留的匿名数据发布技术的研究本文提出了三种具体的身份保留匿名化原则,并重点介绍了基于聚类的匿名发布和有损分解IDAnatomy两种数据发布方法的实现。数字图书馆应用数据的分析在绝大多数情况下不仅需要发布的数据保留用户身份,而且还需要考虑用户的个体隐私保护需求。针对此种情况,本文首先考虑数字图书馆领域应用数据通常存在单一个体对应多条记录的情况,特别分析了此情况下用户敏感数据的侵犯情况,并提出了三种具体的身份保留匿名化原则。接着介绍了应用加权层次距离信息损失评估方式实现数据匿名的基于聚类的(P,α,β)-clustering算法,并分析了算法复杂度;另外还介绍了有损分解IDAnatomy数据发布方法,其通过将原始关系的准标识符属性和敏感属性以两个不同的关系发布,利用它们之间的有损连接来保护隐私数据的安全,并且给出了基本的IDAnatomy算法保证发布的数据满足隐私保护和实用性要求。最后在实验环境中从多个方面比较了原有匿名方法和身份保留的匿名化方法,检验了方法的有效性。(4)敏感数据图发布相关技术的研究本文主要提出了一种新的图聚类安全分组策略和两种不同实现策略的匿名数据发布算法。文中首先分析了数字图书馆复杂个体交互关系数据发布的隐私保护问题,同时根据背景知识对图攻击问题进行了增量式知识查询建模和量化。接着在建立二分图图模型和相关定义的基础上,初步对图的数据匿名集成和数据匿名化问题进行了探讨,同时介绍了简单匿名化、列举和划分等二分图基本数据匿名发布方法。而后结合最新研究成果,提出了一种新的图聚类安全分组策略来提高二分图发布数据的可用性,并从实现策略上比较了先聚后分的CKG算法和边分边聚的KGC算法,其间还重点分析了两个关键问题——图泛化信息损失和聚类分组超顶点的描述。最后通过实验表明,基于聚类安全分组策略匿名方法能为图中的个体提供隐私保护的同时还能在一定程度上提高匿名图数据的可用性。本文研究了数字图书馆领域几个常见应用场景下的数据发布若干关键技术,给出了一些可行解决方案,并且对提出的各种算法不仅都作了详细的性能分析,而且使用数字图书馆运行的实际数据集或综合数据集对算法进行了详细实验。经实验和性能分析都表明:本文提出的算法与相关算法相比具有很好的性能和较好的适应能力。
其他文献
玄應《一切經音義》為佛經音義之作,例同《經典釋文》,對於文字、音韻、訓詁、輯佚、校刊等有巨大價值。 本文從音韻角度,對其反切加以系聯,欲以摸清玄應之音系。鑒於玄應書版
基于高速公路湿陷性黄土地区桥梁施工实践,分析了湿陷性黄土桩基侧向负摩阻力与桩侧阻力对桩基承载力的影响,提出了桥梁单桩竖向极限承载力和桩身强度的计算方法。通过在桥梁
目的探讨平均红细胞体积(MCV)和红细胞体积分布宽度(RDW)在铁粒幼细胞贫血(SA)和缺铁性贫血(IDA)鉴别诊断中的应用价值和意义。方法日本希森美康XS-800i自动血液分析仪检测48
文章论述了建筑与环境的关系 ,人居环境科学是 2 0世纪下半叶发展起来的一门综合性科学 ,并用系统科学的方法 ,研究人类的聚居环境 ;实行可持续发展 ,达到人与环境的巧妙结合
目的:研究分析布地奈德福莫特罗联合小剂量茶碱治疗稳定期重度慢性阻塞性肺疾病(COPD)的疗效。方法:选取稳定期重度COPD患者180例,将其动态随机分为两组,研究组和对照组各90例。
目的:探讨鼠神经生长因子联合单唾液酸神经节苷脂治疗脑性瘫痪的疗效。方法:60例脑性瘫痪的患儿,随机分为常规运动康复训练(单纯运动组)及常规运动康复训练基础上加用鼠神经生长
党的十八大提出了推进国家治理现代化体系和现代化能力建设的要求,社会组织是国家治理的重要力量。国际慈善组织进入中国以来,为我国的社会建设做出了贡献。研究发现,价值融
目的:观察心脏再同步治疗(CRT)对心肌复极离散的影响。方法:选取68例接受CRT植入的心力衰竭患者,根据术后6个月左心室射血分数绝对值是否较基线水平升高绝对值是否较基线水平提高
高中英语课堂上的一切教学活动,都是为了促进学生的发展,但是传统英语教学模式下的灌输性教学,却常常忽略学生主体性的培养,所以很多学生习惯于被动式的英语学习,没有具备相
大学是大学生人生观、世界观、价值观培养的关键期,但也是三观成长的不稳定期,大学生在面对诱惑、陷阱时,往往一时难以控制、分辨。本文结合在实际中出现的工作案例,以案例背