微数据发布中的隐私保护匿名化算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:ABC20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微数据是指与个体相关的数据,如人口统计数据、客户购物数据、患者医疗数据等,这些数据在趋势分析、市场预测等应用中具有重要的价值。但是如果直接发布或共享微数据会泄漏大量的个体隐私信息。因此,研究微数据发布过程中的隐私保护问题具有重要的现实意义和理论价值。匿名化方法是一种安全有效的隐私数据保护方法,近年来,已经成为数据库和信息安全领域的研究热点。其主要思想是对原始数据进行某种变换,使攻击者无法根据变换后的数据推导出敏感信息所属的具体个体,从而达到保护个体隐私的目的。本文深入研究了微数据发布中的隐私保护匿名化模型及实现技术,并针对现有方法在处理数值型敏感属性和混合型数据上的不足,提出了混合匿名化方法,具体工作有:(1)针对数值型敏感属性提出了(k,e)-MDAV算法。MDAV (Maximum Distance to Average Vector)算法是一种高效的微聚集算法,但该算法没有考虑等价类中敏感属性值的多样性,不能抵制同质性攻击和背景知识攻击。为了解决该问题,本文提出了实现敏感属性多样性的(k,e)-MDAV算法。该算法的基本思想是在进行等价类聚类时,将距离类中心最近的至少k个元组划为一类,同时要求每个类内敏感属性值的最大差异至少为e,从而避免了匿名表中同一等价类内数值型敏感属性值过于接近而造成的隐私泄密。实验结果表明该算法既能够保持MDAV算法的高效性,又能够生成满足(k,e)-匿名模型的更安全的匿名表。(2)针对混合型数据提出了高效k-匿名化的混合算法。由于混合型数据在数据库中普遍存在,而微聚集技术在处理分类型数据时会改变分类型数据的概率分布,泛化/隐匿技术在处理数值型数据时会丢失数值型数据的语义信息,降低了数据的可用性。为此,本文提出了混合型数据高效k-匿名化的混合算法。该算法采用泛化值取代分类型属性值,更好的保留了分类型数据的有用性;用类均值取代数值型属性值,保留了更多的数值语义。为了能对较大数据集进行较为高效的匿名化处理,该算法先采用c-prototype算法将原始数据划分为若干子类,每个子类的大小不小于k,再对划分后的子类进行匿名化处理,这样可以有效的提高对于较大数据集的k-匿名化的效率。实验结果表明该算法能对混合型数据进行高效的κ-匿名化处理。
其他文献
学位
MicroRNA(MiRNA)是RNA家族中的一员,被称为小分子RNA。目前,众多的研究表明,miRNA与生物体的基因表达、生长发育和行为等都有十分密切的关系。早期对miRNA的识别均采用生物学
汉语基本块识别是汉语语块分析体系中的基础任务之一,属于浅层句法分析的一个环节。对给定的汉语句子,汉语基本块识别任务将形式化为以字为基本标注单位的序列标注问题。基于
零形式是指句子中隐式的、未显示表达的语义成分,是传统语义角色标注不能标注出的语义角色,也不是谓词依存成分的语义角色。零形式被区分为有定的零形式和无定的零形式,其中,
云计算作为新兴的一种计算模式,它以互联网为基础,以服务的方式对外提供计算能力。它将网络上的各种资源整合成一个分布式服务集群系统,为用户提供可以缩减或扩展的计算资源。计
随着信息社会的不断发展,人们对信息的需求量逐渐增多,Web上拥有大量的信息资源,它逐渐成人们获取信息的重要途径。然而,由于不同的网站使用的数据往往具有不同的数据格式,所
随着信息化迅速推广和普及,导致各行各业基础信息量成几何倍增。海量存储和大并发成为主流大型数据库的标记。同时异地、跨行业的数据库服务器之间的数据信息交换、交互的诉
随着信息技术的迅猛发展,在网络监控、电信数据管理和金融服务等领域源源不断地产生新数据。具有海量、连续、多变及潜在无限性等特征的数据流不仅为数据存储带来挑战,也加大
稀疏矩阵向量乘(SMVM)运算是许多工程计算与科学计算的核心,近年来随着FPGA的广泛应用,基于FPGA平台的SMVM运算研究工作也在不断地深入。针对FPGA特有的并行性,研究者们提出
Internet的开放性和共享性环境给人们带来了便利,网上购物逐渐深入人们的生活,由此,电子商务得到飞速的发展。但是,近年来电子商务的发展频繁受到各种安全隐患和不诚信因素的