目标输出值缺失的联邦协变量移位自适应

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:elfer_hfut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一些机器学习方法默认 训练数据和测试数据来自同样的分布,现实中我们不能确保数据满足这种假设.在实际中我们获得的训练数据也可能不是来自同一个分布,训练数据内部可能存在多个分布不同的来源,所以我们要考虑测试数据和多源训练数据分布不同的数据背景,本文关注协变量移位情形.除此之外,现实中各数据来源往往不愿意将自己的数据透露出去,这时多个数据来源宛若一座座数据孤岛,我们无法将这些孤岛的数据汇总在一起进行训练,也不能忽视任何一个孤岛的数据信息.本文提出了一个新的设置,我们拥有输出值可获得的多源训练数据和输出值不可获得的测试数据,各源和目标之间存在协变量移位.出于保护数据隐私和安全,训练数据的所有来源不允许自己的数据离开本地不允许被泄露.我们将最新的多源协变量移位算法拓展到联邦学习的框架下.首先,利用联邦学习的思想让每个源在本地学习一个参数模型,每个源只传出学习得到的结果,不传出自己的原始数据.为了估计模型里的最优超参数,我们使用重要性加权方法适应源和目标之间的协变量移位,结合控制变量法减小密度比可能带来的较大方差,我们根据每个源和目标的协变量移位程度给它构造权重,将各源的风险估计加权整合起来作为超参数选优的目标函数,证明了它在目标风险函数的一类渐近无偏估计中具有最小的渐近方差.获得最优超参数的估计之后各源模型便确定下来了,然后我们根据它们在风险估计中的权重给每个源模型构造了模型权重,获得一个加权模型并用于目标输出值的预测,我们还给出了这个加权模型的误差上界.我们提供了一种通用且易于处理的算法框架并进行了一系列实验,实验结果验证我们提出的方法是有效的.
其他文献
当前的商用操作系统不断地被曝出各种各样的安全漏洞,攻击者能够通过攻击商用操作系统影响到安全代码的执行。为解决上述问题,研究人员提出了屏蔽系统,即一种可用来保护安全代码的软硬件系统。具体而言,屏蔽系统保护安全代码的两大属性-(1)机密性:安全代码的执行过程对于商用操作系统而言是不可见的。商用操作系统只能观察到此代码的输入和输出;(2)完整性:商用操作系统不能影响受保护代码的行为。一旦安全代码执行完成
学位
分别从肌原纤维蛋白分子结构和凝胶特性角度,探究不同质量分数鱼鳞明胶(0.5%、1%、2%)的添加对冻融处理鱼糜的冷冻保护作用。结果表明:添加1%明胶时,肌原纤维蛋白在8次冻融后其蛋白溶解度、总巯基含量和Ca2+-ATP酶活性的下降幅度分别为49.2%、17.4%和31.2%,均低于对照组的下降幅度(69.8%、26.6%和49.4%);表面疏水性和羰基含量的抑制程度分别为42.7%和229.9%,
期刊
锂氧(Li-O2)电池由于具有媲美汽油的极高理论能量密度,有望给现有的能源储存与转换技术带来巨大的变革。然而,正极上缓慢的动力学过程以及错综复杂的副反应使其实际应用面临一定的挑战。因此,合理开发高效的正极催化剂对于锂氧电池实际性能的进一步提升具有重要意义。锰基氧化物因储量丰富、成本低廉且具有一定的本征催化活性而被广泛应用于锂氧电池的正极催化剂研究中,然而氧催化活性和晶体稳定性不足限制了其应用,因此
学位
随着大数据以及人工智能时代的到来,数据以及处理数据的方式方法逐渐成为学界和工业界关注的焦点;因数据维数高样本量大,数据降维成为必不可少的环节而主成分分析又是数据降维最常用的方法之一,因此研究主成分分析以及其相关问题具有重大意义,本文主要着眼于主成分分析中的自由度问题。自由度是一个应用广泛的方法,常被用于选择正则化统计模型的最优化参数;自由度具有广泛且不同的定义,为了从理论上严格地在函数型主成分分析
学位
随着债券违约趋常态化,违约债券的规模与违约处置效率的矛盾日益凸显,建立健全违约债券市场化处置机制势在必行。违约债券市场交易过程中的一个关键问题是如何对违约债券进行估值。回收率作为违约债券估值的重要指标,受到了金融机构、监管部门和投资者的重点关注。首先,论文基于2014-2020年的违约债券数据,采用logistic分数响应模型对违约债券回收率的影响因素进行了实证研究。研究发现,债券因素中债券交易市
学位
随着医疗行业全面进入大数据时代,人们愈发期望借助人工智能技术来构建自动化的临床决策支持系统,辅助医生完成诊断决策。然而,现有系统设计出的诊疗方案经常由于无法兼顾到疾病间复杂的并发关系而失去实用价值。事实上,揭示疾病间潜在的并发关系不仅是保证当前诊疗方案有效性的重要前提,也是对病情发展进行前瞻性预防和控制的理论基础。传统方法通常基于对照性医学实验和严格的因果推断来开展并发症研究,但这往往意味着反复的
学位
文中针对道路标线中专用的蓄能发光材料进行制备,并进行了基于单因素及正交试验的配伍性研究、路用安全性研究。结果表明:除掺量因素外,道路蓄能发光粉的颜色与粒径也是影响涂料性能的重要因素,基于道路安全角度的道路专用蓄能材料最佳配伍掺量为:夜光粉27%,钛白粉5%,气相二氧化硅0.8%,玻璃粉50%,成膜物20%,成膜助剂3%,消泡剂0.6%,流平剂0.6%;该掺量下的道路蓄能材料不仅满足规范规定,更具有
期刊
本文将主要研究一类带权值不等式的对称破缺问题,对不等式的最优函数和最优常数取值等问题具有重要意义。对于不等式的取等函数,通常被称为最优函数,可视为是原不等式一阶变分问题的临界点。由于不等式中权值的出现,往往意味着所得到的Euler-Lagrange方程是带有权值的,这样很难去通过以往传统的方法,如重排不等式或者移动平面法去直接处理问题。我们将利用一些变量代换的方法将不等式中所出现的权值统一,这样往
学位
现代风险管理通常需要对多种维度下的风险进行评估.由于金融机构面临相互依存的风险,对金融机构进行单独地监管往往不足以预防金融危机.因此在金融危机之后,人们对衡量系统风险产生了兴趣.学者们提出了很多方法来衡量系统风险,例如条件在险价值CoVaR(conditional value-at-risk)和条件期望短缺CoES(conditional expected shortfall).衡量系统风险往往需
学位
图像分割是图像处理中的重要研究方向,通过对原始图像进行图像分割后能够提供精简有效的图像特征信息,在计算机视觉领域有着十分重要的作用。图像分割的目标是把图像分割成若干个各具特性的区域,并从中提炼出所需信息的方法。将统计学习中的聚类算法应用于图像分割的方法有很多但它们大都未考虑图像数据中存在着同一目标区域相邻像素点之间具有强相关性、存在噪声、数据规模大等特点,以及期望分割的结果在图像空间上连续。本文在
学位