微数据发布中隐私保护匿名技术研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:khalista8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微数据是指与个人、公司、社团等个体相关的数据,这些数据对趋势分析、疾病研究、市场分析等都具有重要的意义。因此,很多组织都在收集或发布大量的微数据。但是,微数据的发布会对数据中个体的隐私构成一定的威胁。因此,如何保护微数据发布中的个体隐私,已成为数据库和信息安全领域亟待解决的问题。 在以数据挖掘为目的的微数据发布中,匿名技术已成为保护个体隐私的重要手段,其核心思想是:首先删除微数据中的显式标识符,使攻击者无法通过微数据本身识别出敏感信息所属的具体个体。然后,依据一定的约束,将微数据基于准标识符划分为若干个等价类,并将每个等价类中各元组在准标识符上的值都变换为相同的值,使攻击者无法通过与外表链接重新标识出敏感信息所属的具体个体,从而达到保护个体隐私的目的。基于匿名技术的隐私保护是以一定的信息损失为代价的。因此,匿名技术的研究目标就是:在保护个体隐私的同时,如何最小化信息损失,即最大程度地保留匿名数据的可用性,使数据分析者从匿名数据中挖掘的知识与从原始数据中挖掘的知识一致。 κ—匿名模型和敏感属性多样性模型是实现基于匿名技术的隐私保护的主要方法。近年来,该方面的研究已成为数据挖掘和信息安全领域一个活跃的研究方向。本文研究微数据发布中隐私保护的匿名技术,主要内容包括:泛化/隐匿技术,微聚集技术,泛化与微聚集的混合技术,面向数值型敏感属性的多样性模型,敏感值个性化保护模型等,主要的研究成果如下: (1)提出一个基于泛化的高效κ—匿名化算法—c—modes—KACA算法,提高了KACA算法在κ—匿名化分类型大数据集的效率。该算法结合c—modes算法的高效性和KACA算法的高数据可用性,首先利用c—modes算法高效地将大数据集划分为若干个大类,再利用KACA算法将大于2κ-1的类划分成大小在[κ,2κ-1]之间的类。实验表明,c—modes—KACA算法相对于KACA算法在信息损失量差别不大的情况下,大大提高了处理效率。 (2)提出多变量免疫克隆选择微聚集算法(ICSMA)和面向微聚集技术的匿名数据质量评估模型(EM4ADOM)。ICSMA可以在全局解空间中搜索全局最优解。EM4ADOM可以更科学地评估匿名数据的质量。实验表明,相对于MDAV算法,ICSMA所产生的匿名数据信息损失少、泄露风险低。EM4ADOM模型则可以从多角度评估微聚集算法所产生的匿名数据的质量。 (3)提出一种面向混合型数据的混合κ—匿名技术。该技术的基本思想是:对于混合型数据,我们采用欧氏距离来度量数值型属性部分的距离,采用层次距离来度量分类型属性部分的距离,并将这两种距离相结合来度量混合型数据的整体距离。然后,将数值型数据的均值向量与分类型数据的最近公共泛化结合作为类质心,并使用该类质心替代对应类中所有元组在准标识符上的值,以实现κ-匿名。实验表明,混合κ-匿名技术能有效地解决混合型数据的κ-匿名化问题。 (4)提出面向数值型敏感属性的分级多样性模型,并基于该模型,设计了3个算法:l-Incognito,l-V-MDAV和l-MDAV。l-V-MDAV算法和l-MDAV算法分别是V-MDAV算法和MDAV算法的改进。实验表明,相对于敏感属性未分级的l-Incognito算法,敏感属性分级的l-Incognito算法能够生成多样度更高的匿名表,因此,可以更好地抵制同质性攻击和背景知识攻击。相对于V-MDAV算法和MDAV算法,l-V-MDAV算法和l-MDAV算法能以近似的时间代价和信息损失获得安全性更高的匿名数据。 (5)提出完全(α,κ)-匿名模型,实现了面向敏感属性值的个性化隐私保护,并基于聚类思想,提出一个(α,κ)-聚类算法。实验表明,完全(α,κ)-匿名模型可以有效地实现敏感属性值的个性化保护。
其他文献
数据挖掘是在海量数据中对有用信息进行抽取或者挖掘的过程。随着数据挖掘技术的快速发展,在商业、金融、医疗等多个领域,它在给人类带来方便讯息的同时,也不可避免的涉及到
今天,科研、政务、商务等诸多应用领域普遍存在业务需求快速多变的特点,要求其信息系统能够按需动态集成,以即时应对需求的变化.随着面向服务计算技术的日渐普及,互联网内已
随着互联网信息的爆炸式增长,以微博为主导的一批在线社交网络蓬勃发展。越来越多的人以群体的形式在微博网络上进行聚集,且规模随着时间推移逐渐壮大。微博群体的诞生一方面有
纵观计算机的发展历史,可以发现计算平台创新的发展趋势是每隔15年左右出现一类新的平台,以降低使用门槛并扩大用户群。为了充分利用新的网络基础设施带来的机遇,个人网格(PG)—
计算机断层成像(即CT)无论是在医学放射诊断方面,还是在工业领域中均有重要而广泛的应用。可以说CT是自发现X射线后又一个里程碑的发明。目前随着对CT技术研究的逐步深入,CT
学位
本论文以中等职业学校教育教学改革为背景,以学生的课程成绩和职业资格鉴定成绩为分析对象,在数据仓库环境的支持下,对适应性教学课程设置下学生的职业能力和综合能力进行了初步
无线传感器网络集成了传感器技术、嵌入式技术和无线通信技术,具有自组织、构建灵活、覆盖广等优点,因此广泛应用于军事领域和民用领域。目标跟踪技术是目前无线传感器网络研
以网络技术和多媒体技术为代表的现代信息技术的发展,给教育领域带来了前所未有的生机与活力。但网络的蓬勃发展为网络教育仅仅是提供了一个物质的基础,要使网络真正的为教育服
序列比对是分子生物学的一个基本而重要的方法,被广泛的运用于同源基因搜索、结构和功能预测以及系统发生分析等方面。它通过比较两条(称为双序列比对)或者多条(称为多序列比
学位
RNA作为一种重要的生物大分子,在生命活动中具有关键性的作用。自2000年以来有关RNA的研究已经有6年被Science杂志列入世界十大科技进展,这充分说明了RNA的研究在当前生物学领