基于差分隐私的朴素贝叶斯分类方法研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:sima1969
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网领域的迅猛发展,社交网络、电子商务的发展也越来越迅速,人们通过互联网在社交软件上沟通交流,使用淘宝、京东、拼多多等电子商务平台进行线上购物。互联网在给人们带来诸多便利的同时,引发的隐私泄露事件也时有发生。许多企业和组织从各自领域收集到了诸多用户数据,这些大量的数据背后往往蕴藏着许多有价值的信息,企业和组织将这些信息交给数据挖掘人员进行分析以得到数据背后的价值,指导企业和组织的进一步决策。然而,当不可信的数据挖掘者直接对这些数据进行访问时,很有可能产生隐私泄露的风险。因此,在数据挖掘的同时对数据进行隐私保护具有重要意义。朴素贝叶斯分类算法是数据挖掘算法中应用最为广泛的分类算法之一,因其算法的简单性和有效性,被广泛应用于分类任务。朴素贝叶斯分类算法需要对数据的计数值、均值、标准差等参数进行访问,然而当不可信的数据挖掘者直接对这些数据进行访问时,很有可能产生基于推理的攻击。本文针对朴素贝叶斯分类时产生的隐私泄露问题,结合差分隐私保护技术,提出了一种基于差分隐私的朴素贝叶斯分类方法;针对其在高维数据集上分类效用较低的问题,结合差分隐私保护技术以及广泛应用于降噪、压缩等领域的哈尔小波变换,提出了一种基于哈尔小波变换的差分隐私朴素贝叶斯分类方法。本文的主要研究工作如下:(1)分析了数据挖掘中的隐私泄露问题,对数据挖掘、朴素贝叶斯分类算法、差分隐私保护方法、小波变换以及标准化方法进行了详细的介绍;同时对数据挖掘隐私保护方法的研究现状进行了综合分析。(2)针对朴素贝叶斯分类算法中的隐私泄露问题,提出了一种基于差分隐私的朴素贝叶斯分类方法NBDP。对于类别型属性,该方法通过对计数值添加Laplace噪声来满足差分隐私;对于数值型属性,首先假设其服从高斯分布、拉普拉斯分布或对数正态分布,对数据中的计数值、均值、标准差、尺度等参数添加Laplace噪声,然后使用加噪后的参数来计算待分类项属于每个类别的概率,最终得到待分类项的所属类别。最后通过在2个来自UCI数据库的真实数据集以及使用MATLAB工具合成的数据集上进行实验对该方法的效用性进行了评估。实验结果表明,该方法在保护了数据隐私的同时,还具有较高的数据效用性。(3)针对基于差分隐私的朴素贝叶斯分类算法对高维数据集的分类效用较低问题,提出了 NBDP-NHWT1 算法、NBDP-NHWT2 算法、NBDP-NHWT3 算法以及NBDP-NHWT4算法,即分别对原始数据集进行不同的标准化变换,再对标准化变换后的数据应用指定分解停止级别的哈尔小波变换,通过保留指定分解停止级别的非零近似系数实现对数据的降维,得到降维后的结果集,对降维后的结果集加噪,并使用加噪后的数据训练朴素贝叶斯分类器,最终得到待分类项的所属类别。实验结果表明,NBDP-NHWT3算法,即对原始数据集进行Z-score标准化变换后,再对变换后的数据进行哈尔小波变换、加噪、朴素贝叶斯分类等操作的算法对实验数据集的分类准确率及F1值均大于NBDP算法。
其他文献
Zadeh于1965年提出了模糊集的概念,为描述和处理事物的模糊性和系统的不确定性提供了十分有效的工具.模糊集合论的核心是模糊逻辑理论,模糊逻辑理论在决策系统、神经网络等方面有着广泛的应用.模糊逻辑算子是模糊逻辑中重要的组成部分,而迁移性的研究是刻画模糊逻辑算子的方法之一.目前模糊逻辑算子的迁移性已经有了一系列的成果,本文主要研究模糊逻辑算子2-一致模之间的迁移性.主要内容安排如下:第一章:预备知
学位
科学技术的飞速发展对现代军事应用策略的不断更新产生了巨大的推动作用,对红外目标检测与跟踪系统的作战距离和检测准确率都提出了很高的要求。真实的红外图像信噪比低、背景干扰严重,且目标通常表现为微弱的孤立光斑。因此,有效地突出目标并抑制各种类型的复杂背景是红外小目标检测技术的关键。近年来,红外弱小目标检测算法的改善与进步实现了更高效的检测结果,但在面对顽固的残留背景时仍然表现出一定的局限性。在学习与分析
学位
作为医学领域相关分析和判断的重要工具,医学成像可以在诊疗中发挥重要的辅助作用,诸多难以经由简单地“望闻问切”来诊断的顽固性疾病能够通过图像有迹可循,这极大便利了医护人员根据影像结果来进行准确的诊断与后续治疗。关于染色体目标的识别与分析作为现阶段科学诊疗染色体类症状的一大利器,是当前研究的重点方向,具有广泛的应用价值。然而,传统流程经由人工处理完成,繁琐、低效。针对现实需求并结合实际图像情况,本实验
学位
激光光斑位置测量在激光跟踪、激光通信等激光技术中起着重要的作用,其中对连续光光斑位置测量技术的研究已经日趋成熟,但是对脉冲光光斑位置测量技术的研究存在由非线性较大引起对光斑位置不能线性测量等方面的困难。然而由于脉冲光与连续光相比具备一系列突出的优点,且未来在诸多领域中有着越来越广泛的应用前景,所以对脉冲光光斑位置测量技术的研究受到国内外研究者们的广泛关注。本论文的研究工作主要是为了校正一维PSD对
学位
随着经济的飞速发展和人口的不断增长,陆地上已有的资源日渐匮乏,不能满足人类的需求,国内外的研究学者和科研工作者逐渐把注意力转移到海洋资源的探索和开发中。因此对水下信息的了解程度很大程度上决定了对海洋的开发度。由于人类的生理条件,我们无法亲身到水下进行长时间作业,这就需要我们通过其他方式来获取水下信息,光学成像是目前最有效也是最直接的途径之一。由于水介质的光学特性,水下获取的图像退化严重,色偏、对比
学位
厄米算符可以用来表示量子力学中的可观测量,该类算符的本征值是实数。但1998年PT(时空反演对称,对应Parity-Time的缩写)对称理论出现,是由Bender等人发现的,该理论指出:PT对称的非厄米的量子系统哈密顿量也可具有实的本征值。PT对称量子系统在自然界中没有对应的系统,直到2010年Christian等人首次在PT对称光学耦合系统实现实验模拟。本论文针对多聚物波导管系统研究了色散特性以
学位
表面等离激元(Surface Plasmons,SPs)是光子和金属表面的自由电子相互作用形成的电磁波。它能够突破传统光学的衍射极限,具有较强的局域场增强特性。其可分为局域表面等离激元(Localized Surface Plasmons,LSPs)和表面等离极化激元(Surface Plasmon Polaritons,SPPs)。Fano共振是一种量子干涉现象,它是由窄的离散态(暗模式)和宽的
学位
光隔离器、光循环器、光放大器等非互易器件可以实现对光的方向控制,是构建光信息网络的关键元器件,在全光通讯领域中占据极其重要的地位。基于手性量子相干效应,人们在光隔离器等非互易光学器件方面的研究取得了非常丰富的成果,比如利用非平衡耦合实现高保真度光隔离、利用原子热运动导致的多普勒频移实现无磁光隔离与光循环器等等。手性光子晶体波导-NV色心杂化量子系统提供了一个很好的实现光学非互易的固态平台,声子耦合
学位
我国是一个人均水资源相对匮乏的国家,被列为世界上十三个贫水国之一。工业化和城镇化的不断推进,不仅使得我国水体的使用功能降低,而且导致我国正在实施的可持续发展战略和水资源的短缺的矛盾加深。这种现象已经严重威胁到我国居民的饮水健康。目前工业中常用到的污水处理技术几乎都是通过生物和化学等方法,但是其处理方法都具有一定的局限性。超声降解有机物是一种具有无二次污染,降解速率快等优点的新型的处理水污染技术。但
学位
古斯-汉欣位移,又称为侧向位移,是光在介质分界面发生反射和折射时其出射光束重心在入射面内偏离入射光束重心的现象。根据菲涅尔公式,有限宽度光束的不同角谱分量具有不同的反射/透射率和反射/透射相位。因此,各分量相干叠加为出射光时将导致光束重心出现一定的侧向移动,其大小和方向与反射/透射相位随入射角的变化率有关。古斯-汉欣位移与介质的光学性质、器件的结构密切相关,微小位移、折射率变化、温度变化等都会引起
学位