【摘 要】
:
联邦学习是以数据不出本地为前提的分布式机器学习隐私保护框架,各参与方利用私有数据训练本地模型,通过聚合模型参数的方式协同构建联邦模型,从而实现数据的可用不可见。然而在聚合各本地模型参数时存在两个问题:一是模型参数聚合时易导致参与方隐私泄露;二是聚合权重通常按数据量进行加权分配,不利于激励拥有数据量少但质量高的参与方,从而存在聚合权重分配不公平问题。针对联邦学习中模型参数聚合的隐私泄露和公平性问题,
论文部分内容阅读
联邦学习是以数据不出本地为前提的分布式机器学习隐私保护框架,各参与方利用私有数据训练本地模型,通过聚合模型参数的方式协同构建联邦模型,从而实现数据的可用不可见。然而在聚合各本地模型参数时存在两个问题:一是模型参数聚合时易导致参与方隐私泄露;二是聚合权重通常按数据量进行加权分配,不利于激励拥有数据量少但质量高的参与方,从而存在聚合权重分配不公平问题。针对联邦学习中模型参数聚合的隐私泄露和公平性问题,本文首先提出了一种基于数据质量评估和动量因子的权重分配优化方法;其次结合差分隐私提出了公平且安全的模型聚合算法;最后,基于教师模型全体隐私聚合(Private Aggregation of Teacher Ensembles,PATE)机器学习隐私保护框架,给出所提方案的适用性验证。具体研究内容如下:1.提出了基于数据质量评估的公平聚合联邦学习算法。针对联邦聚合过程中以单一的数据数量为依据分配聚合权重导致聚合权重分配的不公平问题,深入分析数据异质对权重分配公平性的影响,综合考虑数据数量和质量因素,以参与方的数据数量贡献和数据质量贡献为依据,给出各参与方聚合权重分配算法,并依据模型的准确率量化了模型的公平性。实验表明,与传统的联邦平均算法相比,提出的聚合算法权重分配更公平,即参与者之间的准确率更均匀。2.提出了基于本地化差分隐私的公平安全联邦学习算法。针对参与方和服务器在传递模型参数过程中易受到隐私攻击的问题,首先基于差分隐私保护方法对本地模型添加噪声扰动,实现了参与方原始数据和模型参数的隐私保护;其次,在服务器进行模型聚合时,结合Adam优化算法思想,采用动量因子优化方法,在相邻两次全局聚合模型参数中添加动量因子,综合相邻两次模型参数形成全局模型。该算法在保障数据安全的同时,实现了公平且安全的模型聚合。3.提出了基于公平安全联邦学习的PATE优化模型。针对PATE模型所面临参与训练数据量少而导致模型训练精确度不高的问题,提出了基于公平安全联邦学习的PATE模型。将所提出的公平安全联邦学习算法与PATE模型相融合,减少了原始PATE模型中的数据划分过程,将参与联邦训练的用户数据直接用来训练PATE框架中的教师模型。通过引入联邦学习弥补了PATE模型中训练数据不足的局限性,多参与方协同训练教师模型,通过教师模型训练精度的提高,进一步提升了学生模型的训练精度。
其他文献
本文主要研究了时滞型分数阶差分定义的几类混沌映射及其稳定性条件.主要分为如下六章:第一章,介绍了分数阶差分方程的历史发展背景,阐述了分数阶差分定义下的混沌系统和稳定性的发展现状,应用前景和研究必要性.第二章,回顾了分数阶微积分,整数阶差分与分数阶差分理论的定义和运算性质.第三章,简要地介绍了混沌的定义与特征,几类经典的混沌映射,分数阶混沌映射,并提出了一类带有q弯曲参数的分数阶混沌映射,最后进行了
序列推荐算法根据用户过去的交互序列向用户推荐下一个可能感兴趣的物品。其关键技术之一是学习序列交互的隐表示,以捕获用户偏好,从而给用户提供准确的推荐结果。本文立足于对用户行为序列进行建模,利用变分自编码器优秀的可扩展性,结合多种深度学习方法,研究如何提升用户隐变量的质量来提升模型的推荐性能。主要工作如下:(1)序列推荐模型通常使用用户的历史行为来获得用户偏好表示以产生推荐。大多数方法学习到的用户表示
本文探讨了集优化问题的适定性与解的稳定性.将集优化问题按集序关系分成三类研究.第一章是引言与预备知识.对优化问题的研究背景及现状作了介绍.简述了集优化问题的适定性及解的稳定性研究概况.说明了本文的主要工作.第二章引入了集优化问题带扰动的B-适定性概念,得到了相关B-适定性的判定准则和特征,建立了逐点B-适定性和全局B-适定性之间的关系.第三章引入了集优化问题带扰动的广义l-适定性概念,得到了此类适
传统推荐系统仅利用评分数据或少量评论数据等交互信息进行推荐,而这些用户-项目交互占比很小,在信息化时代下,存在严重的数据稀疏和冷启动问题。随着深度学习和神经网络的发展,出现了大量的跨域推荐(Cross-Domain Recommendation,CDR)模型方法,其核心思想是利用从其他领域收集的信息来辅助另一个领域进行。虽然现有的跨域推荐模型方法在一定程度上缓解了数据稀疏性问题,但仍然存在如下一些
近几年人工智能聊天软件飞速发展,已经成为科技领域的热点。人工智能聊天软件能对用户的问题给予相应的回复,相当于帮助主人处理各项事务的“助理”。有着进一步开发潜力的人工智能聊天软件已经在一些领域得到应用,教育领域就是其中之一。从目前国外教育领域中人工智能聊天软件的应用效果来看,该技术在有效提高教育质量的同时也带来了学术造假、在线教育质量不能稳定保证等问题。教育者在积极应用人工智能聊天软件的同时,也要采
交替方向乘子算法(ADMM)是解决可分凸优化问题的简单方法,尤其在解决大规模问题上卓有成效,利用ADMM算法可以降低原问题的维度,加快问题的求解速度,并且并行解决子问题以获取闭式解.然而对于多块问题,即块数大于3块变量问题来说,虽然可以利用高斯赛德尔形式或者雅可比形式直接扩展ADMM的迭代格式,但是研究表明:在没有额外条件下或者对子问题没有修正的情况下,无法确保算法的收敛性.又因为多块问题模型在深
缩小收入差距有利于我国实现经济转型,是实现共同富裕的重要路径.因此针对收入差距的研究尤其重要.本文以我国收入差距为研究对象,选取面板数据,分别从城乡、地区、行业三个层面先后建立分层贝叶斯自适应lasso分位数回归模型、倾向值匹配-双重差分模型(PSM-DID)及动态面板模型,对我国收入差距进行多维度研究.本文的主要工作集中在以下三部分:第一部分建立分层贝叶斯自适应lasso分位数回归模型分析我国城
基于回答集语义的逻辑程序设计,即回答集程序设计(Answer Set Programming,ASP),是目前最广泛使用的实现非单调知识表示与推理的描述性问题求解方法之一,在人工智能的规划、诊断等诸多领域得到了广泛应用。如何提高ASP程序的可靠性(或保证其正确性)在工程实际中面临较大困难。结构化程序(自动)测试技术是软件工程领域常用的提高程序可靠性的重要方法,已被初步应用于正规逻辑程序测试中。析取
移动支付拥有强大的便捷性和融合性,对我国居民的消费行为有着重要影响.本文以移动支付为切入点,通过构建BayesQR模型和SUR模型,分别探索其对居民家庭消费总量及消费结构的影响,本文的主要工作分为三大部分:第一部分是相关的理论分析及数据准备.首先,从理论上分析居民消费的影响因素及移动支付对居民消费的影响路径,为模型的变量选择及结果分析提供依据;其次,对西南财经大学中国家庭金融调查与研究中心最新公布
磁共振扩散成像(diffusion magnetic resonance imaging,d MRI)是当前唯一一种可以无创检测活体生物组织内水分子扩散信息的技术,活体组织中的水分子受神经、细胞及周围组织结构影响进行受限扩散,其扩散位移分布可以反映组织的微观结构。为了从d MRI信号中准确地估计出水分子的扩散位移分布,高角度分辨率扩散成像(high angular resolution diffu