【摘 要】
:
随着互联网高速发展与人们隐私保护意识的提高,差分隐私作为一种能够提供严格数学证明的隐私保护方法逐渐成为研究的热点。由于采用差分隐私技术生成的合成数据集可满足各种数据分析者的不同分析需求,该技术因此而受到关注。然而随着数据维度的提高,通过差分隐私发布的合成数据集可用性逐渐降低,这是因为高维数据对噪声的敏感度高,从而导致加入噪声后的数据可用性很低。当前解决发布高维合成数据问题的思想是通过降低数据集属性
论文部分内容阅读
随着互联网高速发展与人们隐私保护意识的提高,差分隐私作为一种能够提供严格数学证明的隐私保护方法逐渐成为研究的热点。由于采用差分隐私技术生成的合成数据集可满足各种数据分析者的不同分析需求,该技术因此而受到关注。然而随着数据维度的提高,通过差分隐私发布的合成数据集可用性逐渐降低,这是因为高维数据对噪声的敏感度高,从而导致加入噪声后的数据可用性很低。当前解决发布高维合成数据问题的思想是通过降低数据集属性的维度来降低数据对噪声的敏感度,从而提高数据的可用性。但是高维数据的属性之间存在着高度的关联性,这些属性间的关联性体现着高维数据集的价值与意义。发布数据过程中保留属性间的关联度通常需要消耗大量的时间与资源。因此,在满足差分隐私的条件下尽量减少引入噪声、保留更多属性关联度和减少计算时间成为发布差分隐私合成数据集的重要研究内容。为了解决上述问题,本文提出以下两种算法:(1)提出了一种基于贝叶斯网络的合成数据发布算法APriv Bayes(Alien Priv Bayes)。首先,为了减少引入的噪声量设计了多首节点网络结构,该方法可以有效减少子网的个数增加每个子网的隐私预算。同时,针对多首节点网络结构设计了首节点选择机制,该机制选择与其他节点关联度更高的节点作为首节点。此外,利用首节点选择过程的中间计算数据,采用值域过滤技术缩减了每个节点的父节点候选空间,达到了减少计算量的目的。最后,在真实数据集上对APriv Bayes算法进行实验验证,实验结果表明:APriv Bayes算法能够提高合成数据集的可用性。(2)提出了一种基于贝叶斯网络的联合树算法JTFAPB(Junction Tree of Fast Alien Priv Bayes)。该算法利用联合树改进贝叶斯网络,使用改进的网络来生成合成数据集。首先,该算法设计一种快速构造贝叶斯网络的方法FAPriv Bayes,通过控制节点加入贝叶斯网络的顺序来有效减少构造贝叶斯网路的时间。然后,基于贝叶斯网络构造联合树,并根据团的大小合理的分配隐私预算,随后通过逆方差加权方法处理团和分割点的边缘部分不一致性。最后,在真实数据集上对FAPriv Bayes和JTFAPB算法进行实验验证,实验结果表明:FAPriv Bayes算法可以在保证数据可用性的情况下有效减少计算时间,通过JTFAPB算法可以提高合成数据集的可用性。
其他文献
在命名数据网络(Named Data Networking,NDN)中,安全基于数据内容本身,内容安全性与内容名称和内容生产者的身份相绑定。但在内容检索和内容验证过程中还存在以下内容安全性问题:1)由于命名机制的不透明,导致内容消费者可能无法获得所需可信数据;2)由于传统信任管理模型中以遍历证书链的方式对内容进行验证的时间开销大,导致内容消费者难以验证内容生产者的身份。针对以上2个问题,本文提出一
近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知识图谱是以图的形式表现客观世界中的概念和实体以及它们之间关系的知识库。知识图谱的构建主要分为四大部分,分别是知识抽取、知识融合(实体对齐)、数据模型构建以及知识推理。共指消解作为知识融合的关键部分,在构建知识图谱中起着重要的作用。共指消解是一项能够将知识图谱中的不同描绘合并到
命名数据网络(Named Data Networking,NDN)是信息中心网络(Information Centric Networking,ICN)最流行的解决方案之一。在NDN中,缓存策略旨在减少网络总延迟和服务器负载。为了提高网络的内容交付速度和可靠性,现有缓存策略通常在多个中间节点上缓存数据,而这将增加中间节点的能耗与内存开销。在物联网应用中,节点的内存和能量是有限的。而传统的NDN缓存
随着城市人口的日益增多,人群大量聚集的现象愈发普遍,随之而来的群体安全问题引起广泛关注。自新冠肺炎疫情发生以来,人员的聚集性活动将显著增加疫情传播风险,进一步推动了人群分析成为研究热点问题。人群计数及密度估计是人群分析中的重要内容,但是现有研究存在以下几个问题:(1)基于视觉的人群计数方法受到人群遮挡、光照条件等因素的影响,在复杂环境中难以取得令人满意的结果;(2)基于WiFi信道状态信息(Cha
在大数据时代,丰富数据之间存在着隐藏、有价值的关联关系。而如何发现这些隐藏的、有价值的关系一直是数据挖掘领域的研究热点。关联规则挖掘是数据挖掘领域最有效的挖掘技术之一,可直接将数据库中丰富的关联关系挖掘出来,进而指导实际的营销工作。在传统关联规则中存在数据库中各项重要性相同、出现频率相似的前提假设,使得当数据库中的项目频率变化较大时,设置最小支持度较为困难,加权关联规则旨在解决该困难。然而该类算法
网络表示学习旨在通过算法自动学习实体的特征来为下游任务提供信息量更加丰富、更加便于利用的实体表示,目前已经在计算机视觉、自然语言处理和推荐系统等多个领域的研究中得到了大量的应用。图卷积神经网络(GCN)是一种具有代表性的结合了神经网络的表示学习方法,可以针对特定的下游任务学习合理的网络实体特征。但是普通的图卷积神经网络主要侧重于特征在网络结构中的传输和聚合,忽视了实体在特征空间中的相对位置,从而使
手写识别是智能化人机交互的重要课题之一,根据识别的方法可分为在线手写识别和离线手写识别。传统蒙古文作为我国蒙古族的语言文字,是我国少数民族的文化瑰宝。蒙古文的文字识别研究开展于二十一世纪初。如今,蒙古文离线识别的研发方法趋于成熟。在市场上已经出现用于传统蒙古文识别的OCR软件,可以进行蒙古文古籍、印刷体文档识别等任务。但是,对于蒙古文在线手写识别,由于手写文字写法随意、有效数据收集困难、蒙古文手写
随着物联网、大数据、云计算的发展,智慧农业的展开对提高作物的产量和保护生态环境有着重要的意义。随着世界人口的增长和可耕地面积的减少恶化,世界粮食储备量的缺口仍在日益增长。因此,为了保证生态环境的绿色发展,科技兴农显得尤为重要。农业环境信息的采集对农业数字化耕种策略有很大的影响,传感器为环境信息获取的感知设备,功能不同的传感器接口类型繁多。多类接口的不同使用方法增加了农业科技设备安装、运维的难度,而
随着通信技术的不断发展以及各种智能化设备的广泛应用,用户端所产生的业务流量急剧增长。为了应对激增的无线业务流量,网络运营商开始部署超密集站点来保证用户的服务质量,但这会引发新的问题,如网络拥塞或负载失衡等。如果能够预测基站未来的负载,进而根据预测情况调整用户关联策略,这将极大的提升系统性能。因此,本文以实现负载平衡为目标,研究了超密集网络下基于流量预测的用户关联问题。首先,本文阐述了超密集网络以及
近年来,随着医疗数据量的暴增,运用数据挖掘方法从数据中获取潜在的、有价值的信息受到了医疗界和科研人员的广泛关注。其中,关联规则挖掘由于其可以有效地揭示数据背后隐含的规律,而成为了医疗数据挖掘领域的研究热点。本论文围绕医疗数据挖掘在不平衡数据集的应用展开了研究,提出了“先平衡后关联规则挖掘”的方案。具体研究工作如下:1.针对现有的关联规则挖掘研究未考虑医疗数据集中存在的数据不平衡问题,提出了基于K-