云辅助的隐私保护决策树训练方案研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:xulele2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和机器学习技术的兴起,数据采集和数据挖掘变得更加普遍,决策树算法也成为了数据挖掘中最常见的分类方法之一,广泛应用在医疗诊断、信用风险评估等领域。然而在决策树训练的过程中,一些数据的收集会涉及到人们的隐私信息,这些隐私数据的泄露可能会直接冲击个人利益,甚至触犯法律条款。如何在决策树训练的过程中有效地保护用户隐私成为了近年来非常有意义的研究内容。目前许多传统的隐私保护决策树训练方案是通过参与方之间的交互来联合训练决策树模型,导致系统计算开销大且通信效率低。而云环境下的隐私保护决策树训练方案通常会泄露用户的部分隐私信息,并且训练出来的模型是云服务器的资产,用户一无所知。针对以上问题,本文面向不同数据集的分布情况,利用几种同态加密技术,实现了云辅助的隐私保护决策树训练方案,主要工作包含以下两个方面:(1)提出了一种云辅助的面向横向分布数据集的隐私保护决策树训练方案。该方案利用一种具有双重解密机制的加法同态加密技术,实现了多方环境下非交互式的隐私保护决策树训练。同时有效地利用该同态加密系统的消息空间,设计了一种数据打包技术来提高模型训练的效率,减少了方案的计算和通信成本。实验结果表明,数据打包技术可以有效地减少系统的计算和通信开销。(2)提出了一种云辅助的面向纵向分布数据集的隐私保护决策树训练方案。该方案针对纵向分布数据集上安全地训练决策树的问题,首先利用布隆过滤器和同态加密技术设计了一种多方隐私交集基数协议,使参与者能够合作计算出集合交集的元素个数,但不泄露交集中的具体元素。然后基于该协议,设计了一种面向纵向分布数据集的隐私保护决策树训练方案,该方案的通信轮数较少并且训练的模型归数据提供方所有。最后,实验结果也证实了方案的有效性。
其他文献
聚类可以在没有监督信息的指导下,将数据划分成不同的簇,使得相似的数据尽可能在同一个簇中,而不相似的数据被划分在不同的簇中。“物以类聚,人以群分”,在模式识别、医学诊断、生物学等领域中存在着大量需要将数据按一定规则划分的场景。因此,聚类成为无监督学习中一个被广泛关注的问题,一些经典的方法如K-均值、谱聚类、子空间聚类也得到了广泛的应用。聚类方法尽管操作简单,适用性强,但是由于缺少监督信息的指导依然存
学位
随着生物医学领域研究和信息技术的发展,与生物医学研究相关的文献、数据等资料呈爆炸性增长。海量的生物医学文献报道了特定生物分子(如基因、miRNA和lncRNA等)在食管癌发生与发展中的作用,例如促进或抑制食管癌发生、作为预后因子以及生物标志物等。上述信息对于食管癌早期诊断以及药物研发具有重要意义。但是这些信息分布零散,并且食管癌文本中包含相当多的特定专有名词和术语,所以在通用语言上提出的实体识别和
学位
随着互联网技术的不断发展,越来越多的用户习惯于在各类社交平台上交流观点、分享日常,这种线上的表达方式带来了庞大的社交文本数据。作为一种流行的社交媒体表达方式,社交文本数据不规则的语言结构和语法表达方式使得针对社交文本的情感分析和观点挖掘变得十分困难,然而除纯文本外,社交文本内容还包含着情感鲜明的表情符号。表情符号作为一种特殊的符号语言包含了使用者的丰富情感,在辅助理解社交文本情感任务中起到了非常关
学位
在科学技术飞速发展的21世纪,知识产权的保护变得至关重要,专利作为首要的保护方式,其涵盖90%以上最新的技术信息,且有诸多新型技术只以专利文献的形式公开,通过对专利文献进行知识挖掘与统计分析,能够快速了解国内外相关技术的发展现状和发展趋势,进而为国家和企业制定发展战略提供可靠的依据。近年来,专利申请和授权的数量整体上呈上升趋势。由于专利数量的快速增长,面对海量的专利数据,为了快速找到相关领域的专利
学位
近年来,随着移动互联网的蓬勃发展,人们接触互联网越来越便利,网络上关于用户兴趣和偏好的短文本呈现爆炸式增长,都要求短文本清晰明确的传达语义,因而从短文本中学习有识别力和清晰的潜在主题是一项重要而有意义的研究工作,在文本分类、电子商务和推荐等领域得到广泛应用。然而,现有的短文本主题学习方法面临着捕捉语义相关共现短语不充分的挑战。因此,本文提出了一种基于异质信息网络的短文本主题建模学习的方法(HIN-
学位
在如今大数据互联网时代,网络上每天都会出现大量的短文本,对这些海量短文本信息的管理成为了一个难点。短文本分类作为自然语言处理中的一项基本任务,如何准确高效的将短文本分类,从而更好地服务自然语言其他任务,一直以来都是研究的重点方向。最近,图卷积网络技术在各领域兴起并在各领域获得了不错的效果,例如在网络分析、智能推荐和生物化学领域等。图卷积网络是一种简单且高效的模型,它能够很好地捕获节点与节点之间的结
学位
单药治疗疾病存在治疗效果差,长期服用产生耐药性和副作用等缺点,故药物组合被研究用于克服单药治疗的缺点。早期的药物组合通过医学实验技术或者临床实践获取,耗时耗力效率低,计算机技术的发展和生物信息的积累促使了计算机辅助药物研究的发展。现有研究中对药物组合的研究缺乏对关键基因的考虑且存在组合爆炸的问题,且现有疾病样本数据尤其是罕见疾病的数据不完善,面向小样本数据的疾病关键基因挖掘方法也是必要的。故本文首
学位
随着国家经济的发展和交通基础设施的不断完善,近年来高速交通服务业迎来了巨大发展。为了满足高速交通用户的出行需求,交通服务的智能化发展是一种必然趋势。面向交通的智能对话系统应用于全终端高速交通平台,不仅能够解析客户咨询的业务意图并给出相应回复,而且能够通过一连串的对话指导用户达成某一项任务。近年来,基于深度学习的多轮对话系统快速发展,特别是研究者已经设计出了基于预训练语言模型的多样化对话系统,催生了
学位
文本分类在自然语言处理中是一个重要且经典的问题,它是指一个文本实例对应一个关联的标签。随着数据的爆炸性增长,迫切需要对文本数据进行分类处理,以挖掘其潜在的价值,这在学术界引起了广泛的研究。目前,在深度学习中,基于图神经网络的文本分类已成为重点的研究内容。其中,图卷积网络在文本分类中取得了优异的成绩,为了缩短图卷积网络的训练时间,一些研究人员提出了线性图卷积网络来优化它。但这些图卷积模型将每一层的消
学位
目标检测,作为计算机视觉领域的一个重要研究分支,旨在用边界框表示目标的位置,并给出目标相应的类别。现阶段,基于水平边界框表示的目标检测器在自然场景中的轴对齐图像上取得了优异的检测性能。但是对于遥感图像中存在的目标任意方向、密集排列、背景杂乱、尺寸小、长宽比高等现象,使用水平边界框表示目标会出现包含过多背景信息以及前景背景信息混淆的现象。这两种现象皆会降低检测器的精度。由此可见,如何设置合适的表示形
学位