【摘 要】
:
近年来互联网和通信技术的发展极大地促进了大数据和数据挖掘技术的成熟。随机森林作为数据挖掘中常用的分类算法,被广泛应用到各个领域,支撑各研究机构、商业组织、医疗机构
论文部分内容阅读
近年来互联网和通信技术的发展极大地促进了大数据和数据挖掘技术的成熟。随机森林作为数据挖掘中常用的分类算法,被广泛应用到各个领域,支撑各研究机构、商业组织、医疗机构等进行数据的挖掘与分析。然而,在挖掘与分析过程中,不正确使用数据经常导致隐私泄露问题,为此很多机构和个人不愿意提供更多的信息,不仅限制了数据共享的进展,还严重阻碍了数据挖掘技术的发展。围绕分类算法设计相应的隐私保护策略并为待分类数据提供隐私保护,已成为当前数据挖掘技术迫切需要解决的问题。相较于传统隐私保护技术,差分隐私技术对于隐私保护的定义更加严格。它给出了一种极其严格的攻击模式,在该模式下攻击者能掌握最大的背景知识,差分隐私保护机制通过向原始数据集或其统计信息中添加噪音来提供隐私保护。本文提出了基于差分隐私的随机森林算法,用于保护数据分类过程中涉及的用户敏感信息,论文研究工作可归纳为以下几点:(1)差分隐私通过增加扰动噪声来提供隐私保护,这将导致随机森林算法分类准确率下降。为了减弱差分隐私保护对随机森林分类精度的影响,提出了一种混合决策树算法。对于随机森林中单个决策树的构建,综合ID3算法中的信息增益与C4.5算法中的信息增益比,生成新的属性度量IG_GR,提高了单个决策树的分类准确性。(2)对于随机森林算法,提出了一种新的隐私预算分配策略:对于决策树中不同深度的节点,按权重对其计数查询和属性查询分配隐私预算,用以均衡差分隐私技术对决策树中不同深度的节点造成的信噪比。同时,将混合决策树算法应用到随机森林构建中,设计了基于差分隐私的随机森林算法,平衡了算法的隐私性与分类准确性。(3)将上述设计的混合决策树算法和基于差分隐私的随机森林算法在UCI的Adult和Mushroom数据集上进行实验。结果证明,相较于传统决策树算法,本文提出的混合决策树算法分类精度更优;基于差分隐私的随机森林算法在确保高分类性能的前提下,可以提供有效的隐私保护。本文的工作实现了隐私性和分类准确性之间的平衡,具有实际应用价值。
其他文献
随着网络和多媒体技术的飞速发展,海量的信息数据呈爆炸式增长,信息检索已经成为国内外的热门研究方向之一。有效的索引方法是提升大规模数据检索性能的关键。研究者们已经对
目的:探究表面活性蛋白A(surfactant protein A,SP-A)基因多态性与变应性鼻炎变应原特异性免疫治疗(allergen specific immunotheraphy,SIT)治疗效果的关联,以期加深对SIT治疗机制的了解,同时研究结果将提供在基因水平上对该疾病进行分型的可能,并且可以根据个体对药物的敏感度,制定个体化治疗方式,从而提高治疗效果。方法:收集接受皮下特异性免疫治疗
大视场高光谱成像技术在目标识别、空间成像和无损检测等诸多领域具有广泛的应用前景,已成为现阶段的研究热点。随着对高光谱成像质量、高分辨成像能力需求的不断提高,也对光
近年来,国内经济不断发展,供电需求量不断攀升,由于季节性和作息规律造成的用电峰谷差,会对电力系统产生很大的危害,不利于电网的稳定运行。随着能源互联网的加快构建,清洁能
我国水能资源可开发容量及高坝在役数量和坝高均居世界首位,在我国水电开发中,混凝土高拱坝是水工建筑物中的重要坝型之一。服役期高拱坝受动荷载与不确定环境因素作用形成疲
四旋翼无人机在军事和民用领域得到了广泛的应用。然而,四旋翼无人机是一个非线性、欠驱动、强耦合的系统,而且在实际飞行过程中还会受到不确定的紊流风场干扰,这些因素均给
医药行业作为与人类生活至关重要的领域,其中的矛盾一直存在。昂贵的药品费用与不完善的医保政策使得低收入乃至中等收入人群的健康问题无法得到及时的治疗和保障。对于我国的医药专利领域,可以借鉴《印度专利法》的相关制度规定,从而平衡药品专利和公共健康之间的冲突。《印度专利法》第3节(d)条款(以下简称3(d)条款)已经对药效作为药品专利的授权条件具有相关规定,并且“格列卫案”也作为了此项规定下的一个典型案例
特征选择是指从原始特征中选择出一些最有效特征以降低数据集维度的过程,其能够降低模型复杂度,减少过拟合的风险。近年来,关于特征选择的算法研究有很多,其中多核学习特征选
压电泵因精密控制、无电磁干扰的优点在泵领域内脱颖而出,无阀压电泵不但包括这些优点,同时因结构简单、无阀体和泵体之间的磨损和造价低等独特的特点在压电泵领域中备受欢迎
近年来,空气质量问题成为人们关注的焦点,PM2.5以其粒径小、吸附能力强、滞留时间长、能够远距离传输等特点给人类健康带来严重危害。近地面空气质量监测站布设时间较晚且数