面向异质性数据的动态联邦学习算法研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:rogy520111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联邦学习是一种分布式机器学习框架,它允许具有计算能力的节点在不移动本地数据的情况下进行全局模型(也称之为联邦模型)的联合训练,其能有效保护数据隐私并减少计算负担,同时能取得与集中式训练的模型相当的性能。然而,联邦学习能取得上述效果多基于独立同分布假设,即各个节点上存储的数据是独立同分布的(Independent and Identically Distributed,IID),并且最近的研究发现,当跨节点存储的数据是非独立同分布(Non-IID)时,联邦学习的性能和效率会出现显著下降。这种由Non-IID数据引起的数据异质性在实际的分布式场景中很常见,其极大地限制了联邦学习方法在实际场景中的应用。因此,数据异质性成为当前联邦学习面临的主要挑战之一。本文针对异质性数据的挑战,并基于现有关于异质性数据场景下联邦学习的研究成果,设计了两种联邦学习算法,分别从性能和效率两方面对联邦学习进行提升。重点工作和创新点如下:1.针对异质性数据下联邦学习性能显著下降的问题,本论文提出了动态加权联邦平均算法,该算法通过定义的数据异质性指标,重新设计了全局模型融合方法,以限制由异质性数据引起的模型发散,从而达到提升联邦学习性能的目的。在多个公开标准数据集的实验结果表明了动态加权联邦平均算法在异质性数据下对联邦学习性能的提升。2.针对异质性数据下联邦学习效率下降的问题,本论文设计了动态参与方选择算法,该算法基于各个节点的数据异质性程度以及历史模型训练效果,动态地改变每个节点参与训练的概率,使得模型能更快地学习到全局的数据知识,从而加快联邦模型的收敛,达到提升联邦学习效率的目的。同样地,在多个公开标准数据集上的实验结果表明了动态参与方选择算法能够有效地提升联邦学习的效率。3.搭建了面向异质性数据场景的联邦学习平台,其集成了经典的联邦学习算法以及本文提出的两个算法,以及常用的深度学习模型和公开数据集,并且用户可以通过交互界面设置详细的实验环境然后开展异质性数据场景下联邦学习的实验。此外,该系统还实现了联邦模型训练过程的实时显示。
其他文献
新型冠状病毒病(COVID-19)是一种大流行病,传播速度极快,对人体的伤害很大。世界各国都爆发了新冠肺炎疫情,目前已导致全球600多万人死亡,感染人数超过4.58亿(截至2022年3月14日),严重影响了人们的生活。快速且准确地诊断出新冠肺炎感染是控制疫情蔓延的关键。为了快速高效地检测出COVID-19,降低COVID-19对人类生存的威胁,本文首次提出了基于强化学习的COVID-19诊断检测框
学位
话语分析倾向于研究社会或外部世界与话语之间的相互作用。认知语言学则关注相对微观的层面,能够拓展语篇分析研究,并为语篇分析提供了认知理据。立场是语言使用者所表达的立场,反映了他/她对所传达的事件和所描述的命题的态度和评价。同时,所有的立场话语资源又是语言使用者不同程度的主观性的指标,即说/写主体对所传达信息的承诺程度。本研究旨在从认知语言学角度探讨报纸社论立场和主观性话语表达的分布模式和策略。报纸媒
学位
目的 调查宫颈癌患者健康促进生活方式的现状,分析其影响因素,探讨与自我管理效能感的相关性,以期为临床宫颈癌患者的健康促进干预提供依据。方法 采用便利抽样法,选取2019年6月—2020年6月南昌大学第一附属医院妇产科收治的宫颈癌患者120例,采用自行设计的一般资料量表、中文版癌症自我管理效能感量表(SUPHH)及健康促进生活方式量表Ⅱ(HPLP-Ⅱ)进行问卷调查,回收有效问卷110份,对结果进行分
期刊
目的:观察首荟通便胶囊治疗功能性便秘的临床疗效。方法:将40例功能性便秘患者随机分成两组,治疗组口服首荟通便胶囊2粒,每日3次;对照组口服枸橼酸莫沙必利片5mg,每日3次,疗程均为2周。结果:治疗后两组患者的临床症状积分均较治疗前明显改善(P<0.05);治疗组总体疗效与对照组比较有统计学意义(P<0.05);两组均未发现明显不良反应。结论:应用首荟通便胶囊治疗功能性便秘总体疗效优于枸橼酸莫沙必利
会议
面向开放域的问答任务要求问答系统通过检索知识文档库,找到问题相关性段落,把问题和段落输入阅读理解模型后预测出问题答案。和限定域问答相比,开放域问答中问题查询内容没有约束,知识主题更加广泛,如何准确检索到和问题匹配的文本段落是预测出正确答案的关键。现有研究方法对语义模糊性问题的澄清能力不足,难以从中提取到关键特征,导致段落检索效果不佳,最终影响答案预测准确率。因此,研究检索模型对开放域问答有着重要意
学位
近年来,自监督学习因其简单且有效在深度学习领域大放异彩。自监督学习只通过无标记数据集,通过构造代理任务生成伪标签来训练深度卷积神经网络,解决了大规模标记数据集难以获取的问题。传统的自监督学习要求深度卷积神经网络使用外部代理任务(即基于图像或视频的任务)来编码高级语义视觉表示。本文提出了卷积神经网络内部的特征变换也可以看作是监督信号来构造自监督任务,称为内部代理任务。并且这种任务可以用于监督学习的增
学位
随着大数据时代的到来,数据成为重要的生产要素,数据规模也越来越大。云存储的出现减轻了用户的数据存储压力。然而,云存储无法保障外包数据的机密性,且云服务提供商本身是不完全可靠的,存储和查询服务质量会受到经济利益等因素的影响。可搜索加密技术通过构建密文检索方案保障了数据存储的安全,区块链则能够确保数据查询的正确执行,增强云服务的可信性,二者结合,能够有效解决云存储的安全性问题。在实际应用中,外包数据需
学位
新冠肺炎疫情影响全球已达两年之久,对社会和人们生活造成了颠覆性的影响,涉及到了整个社会的方方面面。语言作为人们赖以交流思想的主要媒介也难免因此而产生变化。大量新闻媒体一直以来都保持着对疫情的高度关注,也因此产生了大量可供语言研究者分析的新闻语料。这些语料相比社交平台语料而言,语言更加规范且能从多角度描述疫情和社会生活的关系,是很好的分析素材。本研究从认知语言学的视角出发,试图应用框架语义学和构式语
学位
深度学习在计算机视觉领域的表现十分亮眼,基于深度学习的方法能够处理很多图像相关的问题,比如图像生成、图像修复等。生成式对抗网络作为深度学习中的一种重要方法,能够生成高质量的图像,用于扩充数据集、图像分类等。虽然生成式对抗网络的表现十分优秀,但是其存在着许多问题,如训练不稳定、模式崩溃等,需要进一步的改进优化。首先,本文提出了一种基于生成式对抗网络的两阶段图像生成方法,提升生成式对抗网络的图像生成能
学位
文章以宁波舟山港为例,结合专家访谈结果,梳理出港口发展的影响因素。通过DEMATEL方法分析各影响因素相互间的作用程度,并以此为依据确定各影响因素间的因果关系和每个因素在系统中的重要程度;采用ISM方法,对各影响因素进行层级划分,厘清各要素间的逻辑结构关系,再运用MICMAC方法将所有影响因素进行归类。通过研究发现:资源整合能力、安全运输保障、港腹互动、专业人才、港内外资聚集度,处于解释结构模型的
期刊