邻近隐私保护与集成K-匿名算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zb_jinzhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘和知识发现在各类数据应用范围中都起到非常重要的作用。数据挖掘的目的是从大量的无规律的数据中抽取出潜在的、有价值的知识、模型、规则等;另一方面,数据发布是把数据库中的数据通过相应的方式提供给用户,但在各种数据应用中,如果在数据发布过程中没有相应的方法对隐私数据进行保护,那么很有可能导致敏感信息的泄漏,因此会给数据所有者带来负面影响。例如在医院的病历数据中使用数据挖掘的相关算法进行挖掘,以进行相关疾病问题的研究。由于医院的病历数据包含了患者疾病的隐私信息,所以如何在数据的发布过程中,使用并且能够保护个人隐私成为了一个越来越严峻的问题。  数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化、压缩等)原始数据中的部分数据,使改变后的数据无法和其他信息相结合而推理出关于任何个人的隐私信息。如何对针对含有隐私信息的数据进行相应的匿名化工作,现如今已经得到了越来越多的研究人员的兴趣。  通常的说,实现隐私数据的保护主要是考虑以下两个问题:(1)保证数据使用的过程中不泄露用户隐私信息;(2)保证数据的实用性更好。因此,如何在保护隐私的同时获得更好的数据可用性,这是学术界和工业界都需要面对和要解决一个问题。  因此,本文的主要工作重点集中在保证足够的隐私力度的前提下,如何提高数据的可用性。从匿名算法和匿名技术二个方面着手提高数据的可用性,本文研究成果主要有:  (1)K-匿名模型是隐私保护中最重要的模型之一。其中概化技术是非常普遍使用的一种匿名技术。通常,基于概化的K-匿名算法共同遵守一个方法,来完成一张表的匿名化处理:把表划分成很多的分组(QI-groups),且这些QI-groups的大小至少是K。然而,我们发现当使用已存在的方法去匿名化和概化QI-groups时,在同一个QI-group中语义相近的一些敏感属性值的隐私会被泄露。为了解决这个问题,引入概念m-color约束,并在该概念的基础上提出相应的理论方法来防止类别属性邻近隐私的泄露,并给出了相应的概化算法。并用实验说明算法的效率和实用性,能大大的降低信息损失。  (2)已有的隐私保护数据发布可被分为两类:理论类型和启发式类型。前者可从理论化的角度讨论数据发布过程中如何保证低信息损失。而后者在多数的情况下其在真实数据集上运行的效果良好,但在某些特殊的数据集上运行的效果并不理想可能会导致很大的信息损失。目前,人们已设计出大量的启发式算法满足一些隐私保护规则,如l-diversity,t-closeness等等。但是,理论类型的研究仅仅局限于k-匿名和l-diversity。基于上述问题,我们首次提出了(ε,m)-anonymity理论化问题的研究。首先,证明了(ε,m)-anonymity‘*’最小化问题是一个NP-难问题,最后给出了问题的相应的算法。  (3)在探讨了已有的匿名技术基础之上,提出了集成(Ensemble Algorithm forPrivacy Preservation)隐私保护算法,它的特点是综合了概化(Generalization)和机器学习中的集成学习(Ensemble Learning)两种技术的特点,通过对几个k-匿名算法进行集成,最后输出由这几个算法集成而成的满足k-匿名的表,优化了数据的可用性,降低了信息损失。通过对集成隐私保护技术的分析表明,它是k-匿名技术的一种推广,能够提供比k-匿名更加好的隐私保护力度,更好地降低信息损失,应用范围也更加的广泛。
其他文献
Enterprise JavaBean(EJB)是一种服务器端组件体系结构,能够写出可扩展的的企业级的分布式组件应用程序。 本文对EJB体系结构进行了详细分析,同时介绍了J2EE系统架构,并对
近二十年来,人脸跟踪与识别技术已经成为计算机视觉与模式识别的一个重要研究方向,在商业和安全部门有着广泛的应用。目前的研究工作主要集中在静态人脸识别等方面,但由于静
本文在原有人事信息管理系统的基础上,依据国家人事管理政策和学院内下发的相关人事管理政策,结合实际业务需求,提出了合理、有效的功能扩展,包括考勤、绩效考核、培训、安全四个
目前,工作流技术是发展最快的技术研究领域之一。工作流系统是业务流程管理的重要基础,通过企业经营过程模型的建立、部署和实施,能够促进及监控经营过程的高效运行并且使其
传统机织工业生产流程中,试织是验证织物样式、结构设计是否正确,是否符合客户要求的重要环节。很多情况下试织需要反复进行,往往造成人力、物力的浪费,对机织物结构与外观的
人体生物特征识别技术(Biometric)是一种将信息技术与生物技术相结合,利用人体本身具有的生物特征进行身份识别的技术.包括物理特征和行为特征等在内的生物特征具有"人人拥有
随着Internet/Intranet的迅猛发展,B/S模式已经成为企业信息管理系统的主导模式,XML. ASP. NET、组件对象、分布式数据库等已成为信息系统开发的核心技术。作者在研究这些核
参数多项式表示方法被广泛的应用到CAD及CAGD系统和自由曲线曲面的表示中,例如Bemstein-Bézier,Schoenberg-B-Spline和Hermite-Coons等。Bézier曲线是CAGD中最基本也是最重
本文通过国家广播电影总局有关数字电视用户管理系统的入网测评要求规范和实际用户需求对数字电视运营网络的系统组成结构和具体业务开展模式进行分析,讨论一个基于J2EE体系结
空间数据挖掘或空间知识发现是指从包含空间信息的数据库中抽取隐含的知识、空间关系或非显式存储在数据库中有意义的特征或模式。此技术在理解空间数据、获取空间与非空间数