去协调方的纵向联邦学习技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong478
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习模型效果受到训练数据质量的显著影响,不同企业或部门之间往往会通过数据直接共享的方式提升模型性能。然而伴随着国家和公众对于数据隐私问题的关注,亟需在保护隐私安全的前提下,完成数据的共享和应用。面对这种数据困境,联邦学习技术给出了解决之道,该技术通过加密机制进行参数计算和交换,可以在数据不离开本地的情况下实现多个数据源的安全联合建模。本文旨在实现去协调方的纵向联邦学习系统,包括数据对齐和纵向联邦建模过程,可以在无协调方的协助下完成纵向联邦学习建模。为了提高系统安全性,抵抗恶意敌手攻击,本文首先利用安全隐私集合求交协议(Malicious Private Set Intersection,MPSI)实现了恶意模型下安全的数据对齐过程。本文还实现了去协调方的纵向逻辑回归算法(Vertical Logistic Regression,VLR),可以解决金融领域的诸多建模问题,但是该算法只能解决二分类问题,因此为了扩展到多分类问题,本文最后提出了去协调方的纵向深度神经网络算法(Vertical Deep Neural Networks,VDNN),可以在保护数据隐私的前提下,有效地构建神经网络模型。本文在三个公开数据集上进行了对比实验,实验结果表明,本文实现的恶意安全的数据对齐协议可以在100 s的时间内计算出两个大小达百万级别的数据集交集,通信复杂度为nn O)log(。为了支持Paillier算法的同态加密性质,VLR算法对损失函数和梯度进行了二阶泰勒近似,因此在实验中测试和分析了泰勒近似的损失性,结果显示二阶泰勒近似并不会对模型的训练效果造成太大影响。本文还针对多个评价指标比较和分析了VDNN算法和基线算法的性能,结果表明在相同的模型参数和实验环境下,本文提出的VDNN方法的分类效果更好,运行时间更快,通信效率更优。
其他文献
如何提高软件开发效率一直是软件工程领域的一个核心问题。在软件行业快速发展的今天,为了提高软件开发的效率,开发者往往采用代码复用的方式,如调用现有的应用程序编程接口(API)。现有的检索API知识的方法或工具都只实现了单个API或API子图的搜索。但是,单个API往往难以实现完整的功能,而API子图中包含的信息较为冗余和复杂难以被直接应用于实际的软件开发过程中。实际上,在利用大量使用API的编程语言
学位
通过识别软件仓库中执行的维护操作,可以降低软件的维护成本,从而确定资源分配,提高维护效率。在大多数软件系统中,软件仓库中的问题跟踪系统可以对错误进行跟踪,代码更改可以被集成到代码管理仓库的表示中。了解在源代码存储库中执行的维护活动可以帮助软件开发人员减少不确定性,并通过提前计划和为源代码维护预先分配资源来提高成本效益。针对软件开发过程中的提交日志涉及的代码更改主要使用3种分类标签:bug修复的正确
学位
随着互联网的普及以及智能设备的迅速发展,虚拟个人助手(Virtual Personal Assistant,VPA),也称软服务机器人,逐渐进入人们的生活的方方面面,提供便利。同时,会话推荐系统,也即基于对话的服务推荐系统,以VPA作为载体,也逐渐成为研究热点。会话推荐系统以其可及时获得用户反馈的特点,能够更加精准的命中用户的需求。同时也带来以下几个挑战:如何捕捉用户偏好并对其建模?面对海量服务如
学位
伴随着智慧教育产业的不断发展,师生对于作文自动评分(AES)的需求不断涌现。一套完整的作文评分系统需要实现从文字识别到文本评分的全流程,但现有研究成果忽略了识别和评分之间的关联性,也忽略了书写质量等视觉特征对于作文评分的影响,在这其中也隐含了如何将多模态特征进行融合建模的科学问题。另一方面,现有的研究多是针对扫描的高质量图像,一套可用的评分系统还需要解决自然拍摄场景下含噪图像的文本识别问题。因此,
学位
报纸
随着服务业的高速发展,大量的服务涌入互联网,人们逐渐步入了服务互联网时代。在服务互联网中,万物都可以被服务化,也推动了物联网以及云计算等领域的发展。这些研究领域的发展对服务系统的设计与建模提出了新的要求,如使用微服务架构作为系统的实现架构、在系统设计时要考虑到资源位置的约束以及服务价值质量的约束等等。与此同时,随着用户需求的不断变化,服务系统的设计也需要不断进行演化。所以如何更好的设计与构建满足用
学位
随着人口红利的退去和社会老龄化会加剧,雇佣人力的成本越来越高,以及疫情影响带来的减少接触的必要,从需求和行业竞争的角度来看,传统便利店都需要转型。因此无人零售的正有着良好的发展前景,国内外的多家研究机构和公司正在研究无人商店的落地以及其涉及的前沿技术。现有的无人商店的主要实现是利用RFID标签技术,需要设置专门的结账台,用户手动把商品在结账区域识别RFID标签,对于用户来说这样的购物体验不够流畅,
学位
基于数据孤岛问题以及对隐私安全的保护,联邦学习近来成为传统机器学习方法的一种替代方法。现今很多深度学习系统与平台也将联邦学习作为保护用户隐私安全的重要手段。然而联邦学习的训练方式也在某种程度上泄露了用户的隐私,如每次联邦学习期间的参数交换模型构建过程几乎透明,使得模型易受到成员推理,模型窃取等攻击。目前对联邦学习上成员推理的研究多集中在重构攻击以及属性推断攻击,而对目标样本针对查询数据集的隶属性推
学位
报纸
学位