联邦学习中的公平资源分配方案研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:JK0803_shijiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来机器学习技术发展迅猛,已被广泛应用于金融、医疗和自动化等多个领域。随着手机等智能设备的日益普及,数据作为支撑机器学习发展的关键驱动力,其分布逐渐趋向于本地化,而不再由大型数据中心统一进行存储。仅在规模有限的本地数据上训练会导致模型过拟合,但出于数据的隐私考虑,设备所有者通常不愿意将带有敏感信息的本地数据直接共享给他人,从而形成“数据孤岛”问题。联邦学习(Federated learning,FL)是一种可用于解决“数据孤岛”问题的分布式机器学习框架,通过分享模型参数或梯度的方式,联邦学习参与方可在保持数据本地私有的情况下协作训练一个高性能模型。然而传统的联邦学习中并没有考虑公平相关问题,使得很多客户端遭受了各种不公平对待,严重影响了它们加入聚合训练的积极性,阻碍了联邦学习生态系统的健康发展。例如在现实场景中,参与者之间的数据质量、数据量、计算能力等资源通常具有较大差距,因此它们对聚合训练的贡献是不同的。但是在传统联邦学习中,所有的参与者都会得到相同的聚合模型参数作为回报,而忽略了参与者之间贡献的不同;同时,在训练过程中,常规的聚合操作会不经意的偏向一些设备,使得最终聚合模型在不同参与者本地数据上的准确率表现出较大差距。总的来说,这些不公平问题包含聚合模型性能分配不均匀,参与者贡献和回报不成比例等。现有的相关公平方案存在应用场景受限、成本开销大、贡献评估片面、模型性能受损等问题,因此本文提出了两个公平联邦学习方案来解决这些问题。针对聚合模型性能分配不公平的问题,本文提出了一种基于α-fairness的模型优化公平联邦学习方案。该方案首先提出了一种联邦学习系统公平性和有效性的度量方法,并研究了参数α对系统公平性和有效性的影响,通过一种梯度逼近算法,来确定最佳的α取值达到二者之间的权衡。然后提出了一种有效的公平算法,称为α-Fed Avg,它可以在保持聚合模型有效性不损失的基础上,使聚合模型更公平,即其在不同参与者本地数据上的准确率分布更均衡。此外,该方案还提出了一种可行的α-Fed Avg算法扩展方案,来处理不诚实参与者谎报准确率的问题。针对参与者贡献和回报不成比例的问题,本文提出了一种支持模型分层的公平联邦学习方案。该方案首先提出了一种基于差分隐私生成对抗网络(Differentially Private Generative Adversarial Network,DPGAN)的数据互评机制,在保护数据隐私的基础上,划分参与者的贡献等级。然后提出了一种分层公平联邦学习框架,使用模型性能作为回报,可以使贡献等级较高的参与者得到性能较好的最终模型。此外,该方案给出了一种有效的模型参数检测方法,用来抵御不诚实参与者谎报信息的攻击。最后本文结合理论分析和仿真实验,对所提的两个方案进行了正确性及性能分析,通过与现有方案进行对比,证明了所提方案的公平性和有效性。
其他文献
虽然有机-无机杂化钙钛矿太阳能电池具有较高的光电转换效率,但其低结构稳定性和铅的毒性会严重限制它的商业应用。因而,探究无毒高稳定性钙钛矿具有重要意义。相比于铅基钙钛矿,锡基钙钛矿不仅具有合适的能带、高载流子迁移率,而且还具有无毒特性等;同时在无机层之间插入具有疏水性质的有机分子链可以提高材料的稳定性,使材料成为有机阳离子和无机物交替连接的低维钙钛矿结构。因此,本论文研究了一种具有有机二胺阳离子1,
学位
近年来,复杂网络系统可靠性已成为诸多实际网络与应用系统的研究热点。当前研究主要基于人工构建出的网络模型,在实际复杂系统中尚缺乏系统验证。本论文以实际交通流量网络与电子信息系统为研究对象,重点研究基于节点重要性识别的实际网络系统可靠性的问题定义、识别方法设计、算法实现与验证、得出结论。所研究的模型和方法具有很好的可扩展性与通用性。本文主要研究内容如下:1.提出了一种基于节点属性值重新计算的关键节点识
学位
嵌入式系统应用广泛,嵌入式软件规模和复杂度急剧上升,呈现出组件化、综合化的发展趋势。同时,物联网、工业控制、航空航天等领域对嵌入式软件的可靠性、安全性要求越来越高,如何提高嵌入式软件的安全性和可靠性成为长期被关注的关键问题。基于模型的系统工程(Model-Based Systems Engineering,MBSE)常用于开发大型嵌入式软件系统,以提高软件可靠性。其中常用的系统建模语言(Syste
学位
在人群聚集的场馆进行安全疏散需要应对许多挑战,如果引导不当,容易造成踩踏事件,造成重大人员伤亡。针对疏散中的人群动态变化,设计高效、合理的疏散策略引导行人有序疏散,能够有效降低风险,对人群安全管理具有重大意义。然而,人群疏散受多因素影响,充满不确定性,任何不可预见的突发事件都可能引起人群状态的不稳定,疏散策略应当能够应对环境和人群状态的变化,针对已发生的群体异常提供有效解决方案,防止进一步引发群体
学位
随着传感器的普及和感知技术的不断发展,越来越多的时序数据在连续不断地产生。这些时序数据中蕴含着丰富的信息,能够用于多种场景,例如预测城市中未来空气质量变化、工业监控数据自动风险排查、个性化商品推荐服务以及挖掘潜藏的自然规律等。其中时序相似性搜索作为时序分析的基本算子之一,用于支持以上应用,且这些应用普遍对其拥有较高的时效性要求。然而大数据时代的来临使得时序数据具有基数大、维度高且不断产生的特点,想
学位
隐私保护集合交集(Private Set Intersection,PSI)是一种重要的密码协议,有许多实际应用。随着云计算能力的增强,人们希望利用云存储私有数据集并将PSI计算委托给它。随着个人消费需求的智能化,位置信息日益彰显其重要性,安全的位置验证必不可少。尽管已存在一些高效的PSI协议,但没有一个协议同时支持数据外包、距离限定和区域限定。然而,设计可靠高效的数据外包隐私保护集合交集协议,仍
学位
Android应用程序引入恶意或存在漏洞的第三方库是Android应用程序演化过程中长期存在的严重安全问题。为检测Android应用程序中的第三方库及具体的版本信息,对应用程序进行静态分析和相似度匹配是一种常见的有效手段。商用Android应用程序通常运用多种混淆技术以防止逆向分析,包括基本的标识符重命名、死代码消除以及其他高级混淆技术(如类重打包、控制流随机化等),给第三方库的准确检测造成极大困
学位
减数分裂是真核生物有性生殖的必要环节,需要经过一次DNA复制和两次染色体分离,最终产生染色体数目减半的配子。减数分裂过程中,在同源染色体间发生配对、重组、联会等一系列复杂而有序的事件。交叉重组是减数分裂的核心事件,是同源染色体正确分离所必需的,也是引起物种遗传多样性的重要源泉。核小体是染色体的基本结构单位,由组蛋白和DNA构成。在核小体结构中,组蛋白的氮末端会延伸到组蛋白八聚体构成的核心组分之外,
学位
尼古丁是烟草植物中主要的生物碱,它很容易穿过血脑屏障和生物膜与神经系统中的烟碱乙酰胆碱受体相互作用,引起恶心、心律失常、痉挛等,对人体造成伤害;同时,在卷烟制造过程中产生的大量烟草废弃物会污染水源、土壤,带来严重的环境问题。在研究中发现有些微生物可以利用尼古丁作为碳源和氮源来供给自身生长,利用微生物降解尼古丁可以降低香烟中的尼古丁含量,从而减少吸烟者对烟草的成瘾性;还可以应用于工业生产中烟草废弃物
学位
木质纤维素是地球上储量最丰富的、非粮的、可再生生物质资源,通过生物炼制技术将木质纤维素转化为生物燃料和各种化学原料等高附加值产物是解决资源、环境问题的途径之一。本论文以构建利用木质纤维素生物质生产高值产物酪醇的生物炼制工艺为主线,分别对改善纤维素的糖化效率,优化产酪醇酵母菌株发酵工艺进行了主要研究,并且对同步糖化发酵生产酪醇的新工艺以及将酪醇转化为羟基酪醇的全细胞转化进行了初步探索。首先,为了提高
学位