【摘 要】
:
随着人工智能与移动设备的广泛使用,需要多方协作的应用场景越来越多,因此对分布式机器学习的需求日益增加。然而数据孤岛的出现和隐私意识的增强使得传统的分布式机器学习训练模型的方法正面临着巨大的挑战。在这种新形式下,联邦学习作为一种具有隐私保护能力的分布式机器学习框架应运而生,保证了各个客户端的数据在不出本地的情况下协同训练机器学习模型。但是现有的研究已经证明联邦学习中存在危害数据安全的漏洞,系统内外的
论文部分内容阅读
随着人工智能与移动设备的广泛使用,需要多方协作的应用场景越来越多,因此对分布式机器学习的需求日益增加。然而数据孤岛的出现和隐私意识的增强使得传统的分布式机器学习训练模型的方法正面临着巨大的挑战。在这种新形式下,联邦学习作为一种具有隐私保护能力的分布式机器学习框架应运而生,保证了各个客户端的数据在不出本地的情况下协同训练机器学习模型。但是现有的研究已经证明联邦学习中存在危害数据安全的漏洞,系统内外的攻击者均可利用这些漏洞破坏客户端的数据隐私。最新的研究表明仅通过客户端发送给服务器的梯度信息就可以反推出客户端的训练数据,进而造成客户端的隐私信息泄露。因此,本文旨在研究联邦学习中梯度泄露导致的数据隐私安全问题,深入分析了梯度泄露攻击,并提出了一种自适应差分隐私的防御方案。本文的主要研究内容如下:(1)深入研究联邦学习中由梯度共享导致隐私泄露的攻击。首先通过数学推导验证了浅层神经网络和浅层卷积神经网络的梯度可以反推出原始训练数据,并在MNIST数据集上实现了该攻击。然后,本文研究了一种针对深层神经网络的梯度泄露攻击,该攻击通过减小虚假数据梯度与真实数据梯度之间的欧几里得距离更新虚假数据。并通过MNIST、CIFAR10、CIFAR100、LFW数据集验证梯度深层泄露攻击的可行性。实验结果表明,该攻击通过模型的梯度能够恢复客户端的隐私数据,所以梯度泄露攻击是一种不容忽视的隐私泄露攻击。(2)提出一种针对梯度泄露攻击的自适应差分隐私防御方法。为解决现有的差分隐私方案通常需要牺牲模型性能来提高隐私保护能力的问题,本文受到模型在迭代过程中部分神经元的输出接近零的启发,依据神经网络层的重要性不同提出一种自适应分配隐私预算的差分隐私方案。首先客户端使用本地数据集预训练模型,计算模型每一层的重要性。根据模型层重要性分配不同的隐私预算,对于重要性较大的网络层,添加较少的噪声,从而提高模型的准确率。然后通过对不同网络层选取不同裁剪值的方式,得到一个更紧致的灵敏度上界。实验结果显示,相对于传统的差分隐私的方案,本文提出的方案可以达到与普通联邦学习相似的准确率。最后通过设计实验,从模型准确率、性能开销等多个方面将该方案与同态加密、模型压缩的隐私保护方案进行对比,验证了本文所提出方案的有效性。并使用梯度泄露攻击验证本文方案具有保护客户端隐私的能力,实验结果表明该方案能够防御梯度深层泄露攻击。
其他文献
隐私保护集合交集(Private Set Intersection,PSI)是一种重要的密码协议,有许多实际应用。随着云计算能力的增强,人们希望利用云存储私有数据集并将PSI计算委托给它。随着个人消费需求的智能化,位置信息日益彰显其重要性,安全的位置验证必不可少。尽管已存在一些高效的PSI协议,但没有一个协议同时支持数据外包、距离限定和区域限定。然而,设计可靠高效的数据外包隐私保护集合交集协议,仍
Android应用程序引入恶意或存在漏洞的第三方库是Android应用程序演化过程中长期存在的严重安全问题。为检测Android应用程序中的第三方库及具体的版本信息,对应用程序进行静态分析和相似度匹配是一种常见的有效手段。商用Android应用程序通常运用多种混淆技术以防止逆向分析,包括基本的标识符重命名、死代码消除以及其他高级混淆技术(如类重打包、控制流随机化等),给第三方库的准确检测造成极大困
减数分裂是真核生物有性生殖的必要环节,需要经过一次DNA复制和两次染色体分离,最终产生染色体数目减半的配子。减数分裂过程中,在同源染色体间发生配对、重组、联会等一系列复杂而有序的事件。交叉重组是减数分裂的核心事件,是同源染色体正确分离所必需的,也是引起物种遗传多样性的重要源泉。核小体是染色体的基本结构单位,由组蛋白和DNA构成。在核小体结构中,组蛋白的氮末端会延伸到组蛋白八聚体构成的核心组分之外,
尼古丁是烟草植物中主要的生物碱,它很容易穿过血脑屏障和生物膜与神经系统中的烟碱乙酰胆碱受体相互作用,引起恶心、心律失常、痉挛等,对人体造成伤害;同时,在卷烟制造过程中产生的大量烟草废弃物会污染水源、土壤,带来严重的环境问题。在研究中发现有些微生物可以利用尼古丁作为碳源和氮源来供给自身生长,利用微生物降解尼古丁可以降低香烟中的尼古丁含量,从而减少吸烟者对烟草的成瘾性;还可以应用于工业生产中烟草废弃物
木质纤维素是地球上储量最丰富的、非粮的、可再生生物质资源,通过生物炼制技术将木质纤维素转化为生物燃料和各种化学原料等高附加值产物是解决资源、环境问题的途径之一。本论文以构建利用木质纤维素生物质生产高值产物酪醇的生物炼制工艺为主线,分别对改善纤维素的糖化效率,优化产酪醇酵母菌株发酵工艺进行了主要研究,并且对同步糖化发酵生产酪醇的新工艺以及将酪醇转化为羟基酪醇的全细胞转化进行了初步探索。首先,为了提高
近年来机器学习技术发展迅猛,已被广泛应用于金融、医疗和自动化等多个领域。随着手机等智能设备的日益普及,数据作为支撑机器学习发展的关键驱动力,其分布逐渐趋向于本地化,而不再由大型数据中心统一进行存储。仅在规模有限的本地数据上训练会导致模型过拟合,但出于数据的隐私考虑,设备所有者通常不愿意将带有敏感信息的本地数据直接共享给他人,从而形成“数据孤岛”问题。联邦学习(Federated learning,
随着人工智能技术的快速发展,各种智能服务在现实生活中被广泛应用。传统机器学习场景中通常会搜集、存储多方的数据,用以分析、提取潜在信息。但随着人们对自身数据隐私的日益关注以及各种数据隐私法案的提出,如何在保护数据安全、隐私的前提下合理地挖掘、利用数据知识愈加受到关注。作为一种新兴的分布式机器学习方案,联邦学习能够在保护用户数据隐私的同时使得大量客户端设备协同训练机器学习模型,参与客户端均能从其中获益
云存储是以云计算技术为依托,采取按需付费的服务方式,为用户提供强大的计算资源以及无限的存储空间。用户只需要使用轻量级的设备连接网络,就可以随时随地访问外包数据,而无需花费高额的成本在本地软硬件系统的维护上。然而,云存储在为用户带来便捷的同时,它也带来了许多安全隐患。首先,由于云服务器的不完全可信性,用户需要授权审计者帮助其周期性地检查云存储数据的完整性。当审计者不可用或者行为不端时,用户需要撤销该
海洋是地球上最大的生态系统,地球表面约71%的面积被海洋覆盖。海洋中蕴含着大量的生物资源,尤其是微生物资源,但目前仍有许多海洋微生物未被发现与挖掘。作为海洋环境的重要组分,微生物不仅具有丰富的物种多样性和出色的环境适应性,还可以通过产生相应的胞外酶使得高分子量有机物降解为能够被转运利用的小分子物质,参与并影响海洋有机物循环过程。而目前还没有对东海及黄海海域原位胞外酶活的详细报道,特别是高分子量底物
糖酵解和三羧酸循环(TCA循环)是生命体核心代谢途径,涉及三种2-酮基羧酸:丙酮酸、草酰乙酸和2-酮基戊二酸。前述2-酮基羧酸在生理状态下可经某些还原酶的作用,转变为相应的2-羟基羧酸:乳酸、苹果酸和2-羟基戊二酸(2-HG)。乳酸的代谢和调控机制在多个生物类群中已有较为详尽的阐释,而关于2-HG和苹果酸的研究相对较少。近年来有研究发现D-2-羟基戊二酸(D-2-HG)的积累常伴随多种癌症发生,被