多模态数据的脱敏发布技术研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cgm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展将人类带入了大数据时代,利用大数据相关技术,政府和企业能够对用户数据进行分析,发现数据背后的规律,为决策提供参考,提高生产和工作效率。大数据技术的本质是对海量数据进行采集、分析、关联,以构建普适性的决策模型。在此过程中,为提高数据分析的效果,各数据中心需要将本地用户数据进行发布和共享,存在敏感数据泄露的问题。同时,随着数据采集手段的多样化,数据中心收集的用户数据日趋复杂,形成了大量包含多种数据类型且隐私保护需求差异的多模态数据,使得数据安全发布面临挑战。针对上述问题,研究人员提出了大量的数据脱敏发布方案,而现有方案通常仅能对特定类型数据进行统一程度的脱敏处理,无法直接应用于多模态数据脱敏发布场景。同时,大多方案难以在数据种类、隐私保护效果、数据可用性等方面达到平衡。本文面向多模态数据脱敏发布场景下数据类型多样、隐私需求差异的特点,结合匿名化技术与本地化差分隐私技术,提出了一种隐私保护的多模态数据高效脱敏发布方法,设计并实现了一个多模态数据脱敏发布系统。通过不同的隐私保护算法按需组合来对不同类型数据进行脱敏处理,同时支持用户自定义选择各字段的隐私保护程度,在保护用户隐私的基础上提高了数据集的可用性。系统支持单意义编码型数据、单意义数值型数据、多意义编码型数据、时间型数据以及文本型数据的高效脱敏。此外,本文对多模态数据脱敏发布系统进行了实现与测试,系统前台通过对数据查询与数据统计结果进行图形化展示,可以直观了解脱敏前后数据的统计信息。本文具体工作如下:1.针对多模态数据发布场景下数据类型多样、隐私需求差异的特点,本文提出了一种基于匿名化方法和本地化差分隐私算法的多模态数据脱敏发布方法。该方法对不同类型数据针对性采用不同隐私保护算法进行脱敏处理,同时支持用户进行不同的隐私保护程度选择,最终实现差异化隐私保护。2.基于所提方法设计并实现了多模态数据脱敏发布系统,具体实现了多模态数据的脱敏、查询和统计功能。该系统支持用户根据需求自定义隐私保护程度和数据类型,以及用户原始数据和脱敏数据的模糊查询,同时为单意义编码型数据和数值型数据提供了可视化的统计结果展示。3.针对多模态数据脱敏发布场景,通过调研相关文献和法律法规,对比了真实数据库字段,进行了假数据生成,用于脱敏系统测试。并基于生成的假数据进行系统功能和性能测试。相关测试结果表明,该系统能够实现多模态数据发布场景下的安全高效隐私保护,目前已经成功进行实地部署运行。
其他文献
随着信息技术的不断普及,实时监控技术在物联网中得到了广泛的应用。重要公共场所均安装了摄像头监控设备,这些场所更关注物体移动变化而非固定的场景画面。由于摄像头经常处于复杂干扰环境中,视频流的实时传输效果无法得到保障。当传输环境较差时,现有的自适应视频压缩方法通常会随机降低某些帧的分辨率,以保障视频的播放流畅。若被降分辨率的帧是含有移动物体的关键帧,则不能满足视频监控获取关键信息的要求。因此,为了提高
学位
越来越多的企业利用机器学习中的分类技术来分析各种商业数据,从中提取有价值的信息。这些商业数据中的大部分数据是正常类数据,少部分数据是异常类数据。大部分的商业数据都是不平衡的。因此,不平衡数据分类问题一直以来都是机器学习领域的一项重要研究课题。目前为止,不平衡数据分类方法主要分为数据层和算法层两个方面。本文分别基于数据层的数据合成思想和算法层的集成学习思想,提出了两种用于结构化数据不平衡处理的方法。
学位
研究背景:慢性阻塞性肺疾病作为一种常见的呼吸系统疾病,是一种可预防和治疗的疾病。近年来慢阻肺患病率逐渐上升,患者生活质量低、社会经济负担较重,成为全球关注的公共卫生问题。目前研究表明,COPD的发病机制主要有炎症反应、蛋白酶/抗蛋白酶失衡、氧化/抗氧化失衡等。COPD的特点是炎症因子、多种蛋白酶的水平提高,NF-κ B诱导多种炎性细胞分泌如集落刺激因子、白介素-6、肿瘤坏死因子-α、粘附分子等多种
学位
背景作为人类常见的消化系统疾病之一,是一种由多种因素引起,病因尚不明确的慢性非特异性炎症性肠病,目前导致溃疡性结肠炎的因素包括:肠道菌群失调、适应性免疫失常、环境和遗传等。溃疡性结肠炎反复迁延不愈在影响患者身体健康以及生活质量的同时,由于其反复发作导致溃疡性结肠炎相关性结直肠癌占溃疡性结肠炎患者死亡的9%-11%,因此溃疡性结肠炎被世界卫生组织列为现代难治病之一。人体肠道菌群的数量、组成和分布与肠
学位
随着信息化技术的日益更替,针对信息系统的恶意攻击愈来愈频繁。恶意攻击的对象已不仅局限于个人用户,攻击者的攻击目标逐渐深入到企业、政府等关键组织和机构,对金融、交通、通信、医疗等重要行业都造成大量损失,严重危害社会的稳定。为阻止攻击事件的发生,针对恶意攻击的测试和研究成为网络安全专业人员的关注重点。为更好的测试和研究攻击,采集恶意攻击产生的数据信息是非常有效的手段和必要的基础。然而,现存的数据采集系
学位
近年来,人工智能飞速发展,正在以空前的广度和深度推动社会进步。作为当前人工智能技术的重要分支之一,深度神经网络被广泛应用于图像分类、语音识别、自然语言处理等领域,发挥了不可替代的作用。训练深度神经网络需要大量的训练数据、强大的计算能力、相关的专业知识和专业经验。因此,一个训练好的高性能深度神经网络具有很高的价值,通常被视作模型所有者的知识产权。模型所有者可以基于自己拥有的模型对外提供付费服务,也可
学位
传统的集中式联邦学习系统依赖一个中央服务器来协调全局模型的训练过程。然而,集中式联邦学习的前提是所有客户端信任一个中央机构,一旦中央服务器出现单点故障,将导致系统崩溃和全局模型训练的失败。此外,系统中通常涉及大量的客户端,每个客户端与中央服务器进行直接通信和多轮次交互,这需要负担巨大的通信成本。因此,集中式联邦学习系统可能会出现单点故障和通信开销大的问题。事实上,在许多实际场景中的网络通常是点对点
学位
近年来,随着计算机计算能力的显著提升和数据量的大幅度增长,以深度神经网络模型为基础的深度学习算法快速发展,广泛应用于计算机视觉、自然语言处理、智能控制等诸多领域,甚至引发了新一轮的工业革命。然而,随着对深度学习技术研究的深入,人们发现其很容易受到对抗样本的欺骗。所谓对抗样本,是指攻击者人为地在原本能够被正确推理的数据中,添加微小的甚至人类难以察觉的对抗性噪声,从而生成的恶意样本,它可以误导目标模型
学位
联邦学习(Federated Learning)能够使用来自大规模节点的本地数据集进行分布式模型训练,由于联邦学习在解决“数据孤岛”问题和保护数据隐私方面具有巨大优势,近年来迅速成为安全机器学习领域的研究热点。联邦学习的成功离不开分布式节点的积极参与,而长期机制的目的在于增加系统中用户节点的粘性,确保用户能够长期参与到系统中来,因此针对联邦学习系统中长期机制的研究与设计必不可少。在本文中,我们针对
学位
随着人工智能逐渐走向大规模和分布式,联邦学习作为一种隐私保护的分布式模型训练技术逐渐成为研究人员的关注重点。联邦学习可以在多方数据拥有者不进行数据共享的情况下,共同学习得到一个全局最优的机器学习模型。但联邦学习框架分布式特性也带来了潜在恶意参与者。本意为避免第三方进行隐私窥探的安全聚合协议,却使得针对联邦学习算法的模型攻击变得更加隐蔽且难以检测。基于数据投毒的后门攻击是一种隐蔽性极高的模型攻击方法
学位