论文部分内容阅读
随着信息技术的不断发展,数字图书馆的资源日益丰富和各项服务不断创新,用户隐私问题也日益突出。面向各种应用的数据共享和分析服务的数据匿名发布技术一方面具有较好的适用性、通用性和实用性等优势,另一方面又能够充分尊重用户的隐私,有利于数字图书馆应用数据的充分利用和信息共享,从而促进图书馆开展各项服务工作。然而,数字图书馆的应用数据有一定的具体领域特征,隐私保护诉求和数据形式存在多样性。本文通过对现有各种匿名模型及匿名化技术的研究和分析后,指出目前通常的数据匿名发布技术不足以解决数字图书馆敏感数据发布多种场景下的隐私保护问题。因而,本文对数字图书馆敏感数据匿名发布的若干关键技术进行了一些研究,论文的主要工作如下:(1)面向应用的敏感数据匿名发布框架的研究针对当前敏感数据隐私保护中所面临的种种挑战,创新地提出了一种适应应用需求的数据发布体系结构框架方案——基于领域知识面向应用的敏感数据匿名发布框架,并对框架模块进行了初步介绍,同时还给出了一个个性化自适应的隐私保护数据发布算法。该框架尝试使用自适应的机制,不但能满足不同的数据应用需求而且又能满足数据所有者不同的隐私保护需求。在自适应数据发布算法中,联合采用了准标识属性QI泛化和敏感属性SA泛化以获得符合匿名发布原则的匿名数据表,从而在满足隐私保护需求的同时减少了发布数据的信息损失,即尽可能地提高了发布数据的信息精度。(2)基于泛化的个性化匿名数据发布技术的研究本文结合匿名模型的最新发展,提出了一个可以应用于数字图书馆敏感数据发布的个性化敏感数据发布模型——(P,α,k)-匿名模型和基于泛化技术的数据匿名化实现算法,从面向个体和敏感属性值角度出发,充分考虑了图书馆特殊用户隐私保护诉求和大众用户的普遍性隐私保护需求。文中首先介绍了相关工作并在分析现有个性化匿名原则的基础上对个性化隐私约束参数进行了建模,并提出了(P,α,k)-匿名模型;接着提出了一个基于泛化技术的启发式TopDown—LA算法,并介绍了该算法应用的局部重编码和特化处理技术,保证了算法获取最小k-泛化,最大限度地提高匿名化表精度,而后还分析了算法复杂性和正确性。最后通过真实数据实验,验证了这种启发式的个性化匿名算法可行性。该算法能充分满足个性化隐私保护需求进行匿名发布数据,相比Basic Incognito和Mondrian算法信息损失少,算法性能良好。(3)用户身份保留的匿名数据发布技术的研究本文提出了三种具体的身份保留匿名化原则,并重点介绍了基于聚类的匿名发布和有损分解IDAnatomy两种数据发布方法的实现。数字图书馆应用数据的分析在绝大多数情况下不仅需要发布的数据保留用户身份,而且还需要考虑用户的个体隐私保护需求。针对此种情况,本文首先考虑数字图书馆领域应用数据通常存在单一个体对应多条记录的情况,特别分析了此情况下用户敏感数据的侵犯情况,并提出了三种具体的身份保留匿名化原则。接着介绍了应用加权层次距离信息损失评估方式实现数据匿名的基于聚类的(P,α,β)-clustering算法,并分析了算法复杂度;另外还介绍了有损分解IDAnatomy数据发布方法,其通过将原始关系的准标识符属性和敏感属性以两个不同的关系发布,利用它们之间的有损连接来保护隐私数据的安全,并且给出了基本的IDAnatomy算法保证发布的数据满足隐私保护和实用性要求。最后在实验环境中从多个方面比较了原有匿名方法和身份保留的匿名化方法,检验了方法的有效性。(4)敏感数据图发布相关技术的研究本文主要提出了一种新的图聚类安全分组策略和两种不同实现策略的匿名数据发布算法。文中首先分析了数字图书馆复杂个体交互关系数据发布的隐私保护问题,同时根据背景知识对图攻击问题进行了增量式知识查询建模和量化。接着在建立二分图图模型和相关定义的基础上,初步对图的数据匿名集成和数据匿名化问题进行了探讨,同时介绍了简单匿名化、列举和划分等二分图基本数据匿名发布方法。而后结合最新研究成果,提出了一种新的图聚类安全分组策略来提高二分图发布数据的可用性,并从实现策略上比较了先聚后分的CKG算法和边分边聚的KGC算法,其间还重点分析了两个关键问题——图泛化信息损失和聚类分组超顶点的描述。最后通过实验表明,基于聚类安全分组策略匿名方法能为图中的个体提供隐私保护的同时还能在一定程度上提高匿名图数据的可用性。本文研究了数字图书馆领域几个常见应用场景下的数据发布若干关键技术,给出了一些可行解决方案,并且对提出的各种算法不仅都作了详细的性能分析,而且使用数字图书馆运行的实际数据集或综合数据集对算法进行了详细实验。经实验和性能分析都表明:本文提出的算法与相关算法相比具有很好的性能和较好的适应能力。