面向高维二值数据的差分隐私发布技术研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:tianfong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通常高维数据中蕴含着大量的隐私信息,如果直接发布可能导致隐私的泄露。虽然差分隐私技术能够严格地保护数据的安全,但随着数据属性维度的增加,其产生的时间成本和噪声干扰也将随之增大。尤其是对于高维二值数据很容易被过大的噪声所覆盖。在现有的高维数据差分隐私发布方法中,很少有针对高维二值数据的发布方法,以致于大多都无法很好地解决该类型的隐私发布问题。因此本文结合现有的方法,针对高维二值数据的隐私发布问题展开了一系列的研究。本文主要的工作内容如下:(1)研究了高维数据差分隐私发布方法中的概率图模型方法。针对现有方法在构建概率图模型时没有区分相互独立的属性从而导致模型精度低的问题,提出了一种满足差分隐私的谱聚类算法DPSC(Differentially Private Spectral Clustering)来对数据属性进行划分,并根据划分结果来分割原始数据集从而实现数据降维。在这个过程中针对二值属性引入Jaccard距离作为属性间关联性的衡量指标,并论证了相比于常用的互信息,该指标拥有更低的敏感度和更高的精度。最后对算法进行拓展,使其能够适用于任意的高维数据。实验表明,使用DPSC算法作为现有发布方法的预处理手段能够在一定程度上提升发布精度。(2)研究了概率图模型方法中的贝叶斯网络模型方法。针对现有的方法在构建贝叶斯网络时的时间复杂度过高(指数级)以及所构的网络存在隐私泄露的风险等问题,提出了一种满足差分隐私的自适应贝叶斯网络快速构建算法AFBN(Adaptive Fast Bayesian Network)。该算法通过动态规划算法减少了大量的重复计算提升了网络的构建速度,使用指数机制保护了网络的隐私安全,利用自适应算法解除了传统方法中网络最大入度数的限制提升了网络的质量。实验表明,AFBN算法比传统的Greedy Bayes算法在时间性能和网络质量上都有着显著的提升。(3)研究了贝叶斯网络模型方法中的概率分布加噪方式和合成数据生成方法。针对现有的加噪方式存在概率值大规模失真问题和生成方法存在低概率样本采样误差较大问题,提出了一种概率分布加噪算法BNC(Binary Noisy Conditionals)和一种合成数据生成算法GIO(Generate In Order)。这两种算法都利用条件概率在二值数据上的取值特点,以及BNC算法通过控制网络最大入度数减少了概率值失真出现的次数,而GIO算法利用网络的拓扑序提升了合成数据的精度。实验表明,相比于传统方法BNC算法具有更低的概率误差和GIO算法具有更高的发布精度。
其他文献
由于分布式驱动电动汽车的各动力源独立可控,若电机输出的动力控制不当则容易出现车辆失稳现象。为了提高分布式驱动电动汽车的行驶稳定性,本文提出一种基于相平面法的行驶稳定性控制策略,并通过仿真分析和实车测试来验证所提控制策略的有效性与可靠性。论文的主要研究内容包括:1、构建车辆动力学仿真模型。基于福州大学自主研制的分布式后轮独立驱动赛车的整车结构参数,通过Matlab/Simulink和Carsim分别
学位
答案选择作为智能问答领域的一项重要子任务,旨在于从几个候选答案中选择出正确的答案。传统基于统计学习的方法主要依靠人工来提取问答对之间的语义相似特征并进行问答匹配,该类模型虽然取得一定的进展,但是在时间成本和性能上还无法令人满意。而基于深度学习的方法相比之下则展现出较大的优势,因而成为目前的主流方法。基于上述背景,本文主要针对智能问答系统中的答案选择任务进行研究,提出相应的模型算法。本文的主要研究内
学位
时间序列广泛存在于工程技术、金融分析、自然科学研究等诸多领域中。自上个世纪初以来,时间序列模型的研究就备受研究者的关注,其中包括早期的线性自回归模型、滑动平均自回归模型以及后来为适应不同研究领域的应用而提出的各种非线性时间序列模型。基于状态相依的自回归径向基函数(RBF-AR)模型就是其中一种广泛用于时间序列建模的非线性时间序列模型。关于RBF-AR模型的参数辨识、模型选择、遍历性等问题的研究一直
学位
分段线性微分系统是一类特殊的微分方程,具有比光滑微分系统更丰富的动力学性质.并在工程和应用科学中有广泛的应用,具有特殊的研究意义,是近年来研究的热点.本文在某参数空间下,完整研究了由两条平行线分隔形成三个线性区域的非对称的四参数连续分段线性微分系统的全局动力学.具体研究内容如下.首先,完整研究了系统的有限远平衡点和无穷远平衡点的定性性质,包括了平衡点的数目、类型以及稳定性.本文利用雅可比矩阵的迹和
学位
布线是超大规模集成电路(Very Large Scale Integration,VLSI)物理设计中至关重要的一步。由于布线问题复杂度高,故将其分为:总体布线,轨道分配和详细布线三个阶段。其中,Steiner树由于具有比其他方法求得的连接树总长更小的优点,成为了解决总体布线中多端线网的最佳模型。传统的总体布线以曼哈顿结构为互连线模型,其布线方向受限,且传统的精确算法和启发式算法难以满足复杂性呈指
学位
薄板在工业领域应用广泛,相比于传统加工,采用激光切割的方法加工薄板具有装夹简单、效率高、精度高等优点,因此激光切割技术被普遍应用于薄板加工。激光切割过程是个复杂的热力耦合过程,传统建模方法难以对激光切割质量进行准确地建模。目前,数据挖掘技术已成为激光切割质量建模的新趋势,但基于数据挖掘的薄板激光切割质量研究还有待深入。为此,本文基于数据挖掘技术对薄板激光切割质量开展了如下研究:(1)为了采集足够的
学位
云存储提供了灵活便捷的数据存储服务,数据拥有者将数据上传到云中存储,以减少数据存储和维护开销。为了保护数据隐私,数据拥有者会将敏感数据加密后外包到云平台存储。但原始数据与密文数据之间就失去了关联性,数据用户将无法使用明文搜索技术对密文进行搜索。可搜索加密是一种直接支持用户在密文数据上进行搜索的技术。为了满足云存储环境中不同用户的密文搜索需求,本文针对现有可搜索加密方案的不足,提出了新的可搜索加密方
学位
镁合金作为一种轻质金属结构材料具有较多的优点,例如高比强度/比刚度、密度小和易回收等,在3C电子、航空航天、汽车和生物医疗等邻域具有广阔的应用前景。然而,镁合金在室温下的塑性变形性能较差,通常需在温热状态下成形,因此研究者在金属板材渐进成形的基础上开发出了各种温/热渐进成形工艺,但不同的加热方式对材料成形性能及零件质量有一定的影响,而目前有关这方面的研究较少。本文以AZ31B镁合金轧制板材作为研究
学位
可分离非线性模型,通常可表示成一系列非线性函数的线性组合形式,这类模型广泛应用于机器学习、系统识别、信号处理、时间序列分析等诸多领域。针对这一特殊结构的非线性模型的参数估计问题,产生了大量以批量数据处理为特点的离线学习算法,如交替的最小二乘(ALS)算法、联合优化(Joint)算法、变量投影(VP)算法等。然而,随着信息技术的快速发展和互联网应用的日益普及,数据的产生速度越来越快及对在线实时估计的
学位
本文以工程机械中润滑油和燃油中易混入水而导致润滑系统和发动机系统失效为背景,基于超润湿材料设计方法,针对工业生产中存在的分层油水和分散油水(乳液),利用金属橡胶设计并制备了两种高效分离油水的超润湿材料,解决传统超润湿材料表面微观形貌易磨损的难题。本文主要进行了以下几点研究:(1)深入研究金属橡胶的制备工艺,推导出金属橡胶孔隙度计算公式,基于平均水力直径模型推导出金属橡胶水力直径。在此基础上,针对工
学位