基于差分隐私的决策树分类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:nafei123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息与网络传播技术的快速发展使得数据的分享日益频繁,也使得个人隐私数据的泄漏风险大大增加,因此人们对自己隐私信息的保护越来越重视。在数据挖掘领域,传统的决策树分类方法并没有对数据进行保护,它只专注于提取数据集中有价值的信息和提高分类的准确率,而差分隐私对数据保护的强度很大,所以将差分隐私应用到决策树分类方法中就会有很大的意义。本文主要对基于差分隐私的决策树分类方法进行了研究,包括噪声分配、连续数据与离散数据的处理方法以及将平滑敏感度应用到随机森林决策树算法中。首先对经典的基于差分隐私的决策树分类方法进行了研究,研究发现Su LQ-ID3算法以及Diff PID3算法都无法对连续属性进行处理,Diff P-C4.5算法对连续属性处理消耗隐私预算太多,针对上述问题提出了DPE-C4.5算法,该算法采用指数机制,对连续属性采用比率确定分割点,与离散属性共同参与分裂属性的选择。最后使用指数机制向数据中添加噪声,确保算法满足差分隐私保护要求。实验结果表明,对于相同的隐私预算ε,分类的准确度与现有的决策树相比有一定的提升。基于差分隐私的随机森林决策树算法使用的全局敏感度,计数函数的全局敏感度为1,使用平滑敏感度并不能降低计数函数的敏感度,但在构建决策树时,查询数据会消耗不必要的隐私预算,所以本文针对这个问题提出PRFSen算法,该算法将平滑敏感度应用到基于差分隐私的随机森林决策树中,并且在构建每一棵决策树的时候使用比率确定连续属性的分割点来参与节点属性的选择。实验结果表明,本文在相同的隐私预算ε下,提出的改进算法可以提高分类准确率。
其他文献
随着网络技术的迅猛发展,用户可以在日常生活中同时使用多个在线社交网络享受服务。与此同时,社交网络服务平台种类繁多,逐渐形成一个庞大的社交网络结构。从整体来看,大多数的社交网络都是异质社交网络,异质社交网络中的实体主要包括用户、位置、文本等。异质社交网络实体锚链接识别可以推动社交网络的发展,并不断完善社交服务平台,是社交网络中的重要研究内容。本文主要针对异质社交网络中的用户和位置这两类实体的锚链接识
随着互联网技术的高速发展,网络威胁态势随之愈发严峻,网络威胁情报信息作为网络安全保障组织获取网络威胁的重要来源,具有极为重要的研究价值。因此研究如何在P2P交易场景下进行高效、安全的网络威胁情报信息交易,成为网络威胁情报信息交易的重要研究内容。在分布式环境下的多中心化的联盟链使用节点的审核加入机制,解决了联盟链内节点的信任问题,为面向P2P交易的网络威胁情报信息交易提供了可行的解决方案。研究如何提
在科技相对发达的今天,科技为人类生活提供了诸多便利,同时科技也充分融入到战争领域中。战争已经从肉搏为主要形式转变成科技之间的博弈。科技在战争中扮演着“矛”与“盾”两个角色,我国一直以维护世界和平、促进共同发展为己任,不求“矛”尖锐,但求“盾”坚固。秉承和平发展的主要思想,借助科技的力量,本文提出一种基于贝叶斯推理的目标意图识别方法,意在以人工智能的方法为分析空中目标的意图提供了新的方法,以科技力量
随着网络科技的发展,数据已经成为一种可利用的资本,这为数据挖掘技术的发展带来了机遇和挑战。现实世界中,数据本质上是复杂的,而大量的特征又增加了复杂性的挑战。因此,如何去除冗余数据并保留相关数据已经成为了数据挖掘与机器学习任务的研究热点。在现实任务中,为了避免数据维度灾难问题,去除不相关特征降低数据处理任务难度,特征选择技术被用来作为能够保留语义的预处理过程。特征选择主要依据数据的分布特点,利用合适
部分子分布函数(Parton Distribution Functions,PDFs)是对大型强子对撞机(Large Hadron Collider,LHC)、强子-轻子对撞机以及对其他高能物理实验的理论预测不能缺少的工具之一。而且它对高能物理实验的精确测量和发现标准模型之外的新物理起着举足轻重的作用。然而部分子分布函数是非微扰的,不能通过第一原理计算出来。目前通用的获得部分子分布函数的方法是通过
缸套与活塞环是内燃机中重要的一对摩擦副,其磨损性能将直接影响内燃机的可靠性及使用寿命,因而改善缸套与活塞环的耐磨性对于提高内燃机的使用性能具有重要意义。而目前内燃机缸套材料主要以铸铁材料为主,因而本文从材料学的角度出发,针对缸套铸铁材料在实际服役过程中出现的磨损问题提出改善缸套材料耐磨性能的方法。通过对具有不同组织组成的缸套铸铁材料耐磨性能进行研究,分析了缸套铸铁材料在摩擦磨损过程中组织及形貌的变
燃气涡轮发动机作为一种动力装置,在航空、发电、化工、船舶等领域有着广泛的应用。现代燃气轮机系统的目标是使涡轮机进口温度在大约1900 K至2200 K之间变化,该温度远远超过超级合金材料的熔化温度。因此,需要一种高效且可靠的冷却系统,以保证整个动力装置的运行和耐用性。微通道冷却是近些年兴起的新型内部冷却方法,特别是在金属3D打印技术飞速发展的今天,使得用于燃气轮机冷却的内部通道的新颖几何特征可以超
金融危机出现以后,部分学者认为危机爆发的主要原因是货币政策过于宽松,较长时间的低利率导致了金融机构信贷规模过度扩张、资产价格呈现泡沫化,金融机构的杠杆率变高,系统风险越积越多。分析出金融危机爆发的原因后,诸多的专家和学者们开始把货币政策是如何影响金融业稳定性这一问题,作为一个重要课题展开分析。本论文通过构建GMM动态面板模型展开实证研究,验证货币政策对商业银行风险的影响,希望对维护金融行业的稳定性
深度学习技术由于其近年来的快速发展成为计算机领域的热门研究项目。得益于计算机算力的不断攀升,图像分类技术在深度学习的加持下有非常迅速的发展。目前解决图像分类的研究思路主要涉及到监督学习和无监督学习两类框架。基于监督学习的判别模型是较为基础的训练框架,该模型的重大突破也是过去10年来深度学习技术发展迅猛的原因之一。近些年,更加复杂的度量学习成为了计算机图像领域新的热门。Siamese模型作为度量学习
超级电容器因其具有功率密度高、稳定性好、循环寿命长、能耗低和环境友好等特点为未来的电子系统带来了巨大的希望。目前,这些电子系统正面临着从刚性设备到灵活、便携和可伸缩电子设备的重大转变。印刷技术(喷墨打印、丝网印刷和3D打印)为超级电容器提供了一系列简单、低成本、省时、多功能和环保的制造优势,使超级电容器设备具有新型和理想的结构(微型、非对称、柔性等)。喷墨打印作为一种非接触、高精度、按需喷墨的新型