面向非独立同分布数据的对抗联邦优化算法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:fuyao698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息越发透明化、公开化,大数据时代的隐私安全问题受到广泛关注,数据隐私成为机器学习建模的壁垒,如何在保护数据隐私的同时完成机器学习建模亟待解决,联邦学习应运而生。联邦学习是一种拥有广泛应用场景的分布式机器学习框架,参与训练的客户端在不交换数据的情况下的完成联合建模。联邦优化算法是联邦学习的核心,典型代表是谷歌公司提出的FedAvg联邦优化算法,客户端本地训练完成后将模型参数传输到服务端进行平均参数聚合,在模型精度和数据通讯成本之间进行了折中,许多联邦优化算法都是这样做的。然而面对联邦学习中非独立同分布的数据,平均参数聚合会导致梯度偏差,进而影响模型精度。针对联邦学习中数据非独立同分布导致的梯度偏差问题,本课题提出一种对抗联邦优化算法Fed Gen CAM,将生成对抗网络AC-GAN引入联邦学习框架使得客户端具备样本生成能力,并设计类别聚合机制,实时感知生成器的可生成类别,客户端根据生成器的生成能力完成自然的类别扩充,最终可以生成所有类别的样本,来改善数据类别分布不均衡的情况。与此同时,基于Fed Gen CAM提出两种进一步减小梯度偏差的方法,一是改进类别损失函数,以得到更加均衡的类别梯度;二是设计类别集成训练,用知识聚合来减少平均参数聚合导致的梯度偏差。在MNIST、FEMNIST、Shakespeare和Sentiment140数据集上开展实验,实验结果表明本课题提出的方法优于现有的联邦优化算法,其中收敛速度是FedAvg的1.2倍,在达到相同的分类准确率时减少了近20%的通讯轮数,分类准确率平均比FedAvg高3-5%点,并且成功解决了联邦学习中数据非独立同分布的问题,减小了梯度偏差。
其他文献
随着机器学习不断取得突破性的进展,复杂的机器学习模型在许多领域大放异彩,具有巨大的商业价值,促进了各行业领域的更新换代。但在我们不断去追求模型精度的同时,模型也不断复杂化,如何安全地应用这些复杂的高精度模型成为现在的一大难题。此外,高性能的机器学习模型一直无法运用到一些像金融、法律、医疗健康等对可解释性要求较高的领域,为解决这些问题,本文将对可解释的机器学习进行研究,对复杂模型进行解释,挖掘模型的
碳气凝胶因其特殊的多孔结构,良好的导热/电网络,优异的可压缩性和弹性等特点,在可穿戴设备领域具有巨大的应用潜力。相对于常规的溶胶凝胶法、水热法等,新型的乳液模板法可以制得结构稳定、多功能化的碳气凝胶。然而,由于乳液不稳定及碳化过程质量、体积损失过大等问题,如何使用气泡模板法制备生物质基多孔碳气凝胶仍是一个亟待解决的问题。目前已有学者使用气泡模板法制备石墨烯基多孔碳气凝胶,但是由于石墨烯片层间较弱的
金属化薄膜电容器两端面涂层的制作一般采用电弧喷涂的方式。电弧喷涂技术是一种以电弧作为热源,常用于材料表面强化、修复、防护的表面处理技术。电弧喷涂技术因具有操作方便,易于自动化生产以及所生成金属涂层性能优异的特点,在表面处理技术的应用领域逐渐推广开来。目前,电弧喷涂电源大多采用平特性的电源,以此来保证电弧燃烧过程时电弧长度的稳定性。然而,电弧燃烧本身就是个极其复杂的过程,加之压缩空气和送丝机构的介入
微弱光环境中人眼无法有效成像,需要借助光学探测器和算法获得微弱光图像。光子计数集成成像是一种利用光子计数成像和三维集成成像相结合的技术。通过采集多视角下二维光子计数图像弥补了单张光子计数图像采样不足的劣势,提供了微弱光环境下的三维图像,是目前最具发展潜力的微弱光环境成像技术之一。为了提高重构图像的质量,在光子计数集成技术研究中,研究人员主要针对光子计数图像的泊松特性,进行重构算法的改进研究;利用元
张量鲁棒分解问题在信号处理、模式识别、机器学习以及计算机视觉等研究领域具有重要的应用.本文主要研究三阶张量的平均秩加零范数的最小二乘损失正则化问题,以从噪声观测数据中恢复低秩张量和稀疏张量.首先,本文借助3模积从代数角度研究了三阶张量Tubal秩的计算,给出了原始张量与沿第三维度进行离散傅里叶变换后张量在CP秩、Tucker秩的关系.这有助于理解张量秩的定义,并对后续研究奠定了理论基础.其次,尽管
近年来,可再生能源和氢能发展势头迅猛,利用可再生能源制氢已经成为碳减排的重要途径之一。由于风能/太阳能自身存在的随机性和波动性,使得可再生能源发电制氢系统的稳定性和经济性受到影响,这也是限制其大规模发展的主要原因。因此有必要思考如何利用好风/光资源,实现大规模稳定制氢。风能光能发电制氢是一个复杂的过程,本文先分析了风力发电、光伏发电、蓄电储能、电解制氢、储氢等各部分的工作原理,建立了数学模型,并运
随着无线通信系统的发展,±45°双极化天线因其具有抗极化失配以及抗干扰能力强等优点被广泛应用与基站系统,宽带天线能覆盖多个通信频段,减少天线数量,从而大大节约通信系统成本,因此,宽带双极化的研究具有重要意义。如今已经进入5G时代,我国已经对5G频谱进行了划分,要想同时满足中国移动联通、中国移动以及中国电信三家公司的5G频段,天线带宽至少要覆盖2.5GHz-4.9GHz,相对带宽达到65%。同时,5
我国的电力装机容量保持稳定的增长态势,但电力需求增长明显放缓,同时电力体制改革给发电公司带来严峻的挑战,电力市场竞争越来越激烈。如何减少项目投资、优化进度管理、提高安全管理水平是各发电公司亟待考虑和解决的问题。随着时代的发展,传统的电厂建设方式已不能满足电力企业对工程进度、成本和安全管理的需要。PDMS软件是电力行业三维建模的主流软件,其特点是全比例模型,以数据为中心,在管道设计方面有强大的优势,
面曝光3D光固化打印技术采用切片逐层固化成型方式,具有打印精度高和打印速度快等优点,广泛应用于高精度复杂结构试样的制备。面曝光3D打印过程的模拟仿真与精度研究一直是人们所关注的重点。在面曝光3D打印成形的仿真模型中,存在逐层曝光、多物理场耦合、约束载荷实时更新迭代等众多影响因素,同时打印材料的差异也会引起打印过程新现象的出现。目前在面曝光打印成形仿真模拟时,研究人员对几何模型的处理、载荷条件、反应
演化计算是一种适用于求解复杂、高维、大规模问题的全局搜索算法。通过将数据向量模拟为生物中的基因型,模拟自然界中物种的进化过程,对数据向量进行交叉、变异等操作,并从新生成的个体以及原有个体中选取更加适应环境的个体作为新的种群,从而不断迭代对数据进行优化,最终寻找全局最优解。在聚类问题中,作为一种经典的全局优化算法,演化计算提供了强大的求解办法。根据应用的场景,聚类算法又可以分为在向量空间和图空间上的