领域自适应学习算法及其应用研究

来源 :江南大学 | 被引量 : 5次 | 上传用户：ary015

【摘要】

：

传统的机器学习假定训练域与测试域独立同分布，将由训练数据集得到的模型直接应用于测试集。但在实际应用中，这种假设并不一定成立，若训练域与测试域分布存在差异，则传统机器学习

【作者】

：

许敏

【出处】

：

江南大学

【发表日期】

：

2014年01期

【关键词】

：

领域自适应最小包含球核心集支持向量域描述支持向量机 L2核分类器浓缩集概率密度估计密度估计线性组合空间

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的机器学习假定训练域与测试域独立同分布，将由训练数据集得到的模型直接应用于测试集。但在实际应用中，这种假设并不一定成立，若训练域与测试域分布存在差异，则传统机器学习的性能将会大大降低，故领域自适应学习得以提出，其目标是在领域间建立桥梁，提高测试域预测性能，并广泛应用于解决现实世界中的分类、回归、概率密度估计等机器学习问题。目前，许多国内外专家学者对领域适应学习进行了深入的研究，并获得了许多重要的研究成果，且广泛应用于实际生产中，但仍有许多问题需要进一步的探索和研究。本课题主要从概率密度估计、支持向量域描述、分类、回归等4个方面进行深入的领域自适应学习研究。主要内容如下：1、基于最小包含球的领域自适应学习。相同应用领域，不同时间、地点或设备检测到的数据域不一定完整。针对如何进行源域与目标域间知识传递的问题，在支持向量域描述、分类与回归等问题在数学模型上均可等价于中心约束最小包含球的前提下，首次提出相似领域的概率密度差可由两域最小包含球中心点表示，且其上限值与半径无关的定理。基于此定理，提出一种新颖的领域自适应算法，算法中心思想是先将各算法的数学模型转换成其各自等价的最小包含球模型，再利用源域最小包含球中心点对目标域最小包含球中心点进行校正，从而提高目标域机器学习的性能。这种传递中心点，即源域知识的领域自适应算法具有源域数据隐私保护的优点，且新算法仍等价于中心约束最小包含球的理论证明，使所提算法可利用核心集技术解决大规模数据集问题。实验结果表明，这种领域自适应算法可弥补目标域缺失数据的不足，大大提高算法性能。2、基于SVM的领域间迁移学习算法。当与某领域相关的新领域出现时，标注这个新领域样本可能代价昂贵，而丢弃所有旧领域数据又显得十分浪费。故提出基于SVM算法的迁移学习新算法TL-SVM，其主要思想是SVM分类器由(w,b)组成，若两领域相关，则两域分类器各自的w值应相近，通过训练目标域少量已标签数据和学习源领域的知识w s来为目标域构建一个高质量的分类模型，实现领域间的知识迁移学习。该方法继承了基于经验风险最小化的最大间隔SVM的优点，又弥补了传统SVM不能进行知识迁移的缺陷。将上述理论成果进一步应用于基于密度差(Difference Of Density, DOD)思想的L2核分类器。L2核分类器算法具有良好的分类性能及稀疏性，然而其训练域与测试域独立同分布的假设限制了其应用范围。针对此不足，在L2核分类器的数学模型等价于变形SVM的理论前提下，对其等价的变形SVM进行知识迁移学习，提出具有领域间迁移学习能力的L2核分类器，该算法既保持了L2核分类器算法良好的分类性能，又能处理数据集缓慢变化及训练集在特定约束条件下获得导致训练集和未来测试集分布不一致的问题。3、基于浓缩集概率密度估计(Reduced set density estimation, RSDE)算法的领域自适应学习。RSDE算法是一种基于核的密度估计器，它仅使用数据样本中的一小部分的线性组合来表示概率密度估计式，与传统Parzen Window概率密度估计法相比，极大降低计算复杂度的同时实现了数据浓缩的目的，但该算法必须满足训练集与测试集独立同分布条件。本文提出一种新颖的基于RSDE算法的领域自适应概率密度估计方法A-RSDE，通过学习源域(训练域)概率密度函数p (x;θ1)，使目标域(测试域)概率密度估计函数q (x;θ2)最优逼近真实密度函数q(x)的同时，与源域概率密度函数p (x;θ1)也最优逼近，达到领域自适应学习目的；并用基于近似最小包含球的核心集快速算法求解A-RSDE，将其应用于大数据集密度估计。上述概率密度函数均可看作密度估计线性组合空间上的概率密度估计式，在此基础上进一步提出密度估计线性组合空间概念，指出若需求线性组合空间内的密度估计函数，可由高斯函数为基函数的线性组合在ISE标准下逼近，并进一步提出密度估计线性组合空间的近似框架。该框架的优势在于可直接对概率密度线性组合函数进行估计而不必依次估计各域的密度函数，与传统概率密度估计法相比具有更好地精度；其参与运算的数据规模为l，l值远小于样本总数，适用于大规模数据集；该框架可应用于分类、数据浓缩、随机变量间的独立性检测、回归模型变量选择、条件概率密度估计等；若使该线性组合空间逼近某已知空间，可用于源域与目标域近似度估计，适用于多源领域自适应学习。

其他文献

无处不在的微生物

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

微生物

刮片式制冰蓄冷性能的实验研究

对刮片式动态冰浆制取系统进行实验研究，分析系统的能效比和蒸发器进出口温度、冷凝器进出口温度以及冷凝水和盐溶液流量曲线变化。研究结果表明：对制冷量为20kW的刮片式制冰装

期刊

刮片式盐溶液动态冰浆成冰过程Scraped surface ice generation Saline solution Dynamic ice s

论供给侧结构性改革与应用型大学发展互助

经济转型升级需要高校培养出创新型和实用型人才,高等院校发展要与社会经济发展相匹配,对接社会人才需求。深刻认识供给侧结构改革与应用型大学发展互助问题,高校要与市场对

期刊

供给侧结构改革高校应用型大学改革

翅片管气化器管内相变传热流动数值模拟

采用Fluent多相流混合物模型，通过用户自定义程序（UDF）实现了液氮相变模拟，模拟了不同进口流速对翅片管气化器管内流体换热量、压力降、含气率及汽化体积的影响，并分析了各参数随

期刊

翅片管气化器相变液氮数值模拟Fin - tube vaporizer Phase change Liquid nitrogen Numerical

吉林大学第二医院青年专家刘斌教授简介

刘斌，男，1964年12月出生于吉林省农安县，医学博士、心血管内科教授、主任医师、硕士研究生导师。现为吉林大学第二医院心血管内科副主任、吉林省心脏病介入治疗中心副主任、中华

期刊

吉林大学第二医院硕士研究生导师心血管内科起搏电生理中华医学会专家主任医师心血管病学

长春西汀联合曲克芦丁脑蛋白水解物对急性脑梗死的疗效观察

目的研究长春西汀联合曲克芦丁脑蛋白水解物对急性脑梗死(ACI)的治疗效果。方法选取2016年10月至2017年4月郸城县第二人民医院收治的70例ACI患者,按照随机数表法分为对照组与

期刊

急性脑梗死长春西汀曲克芦丁脑蛋白水解物

论日本食品安全规制中的登记检查机关制度

作为日本食品安全规制中的一项重要制度,登记检查机关制度在减轻行政负担、提升行政效率、保障食品安全等方面起到了独到的作用。登记检查机关必须经过厚生劳动省主管大臣的

期刊

食品安全登记检查机关行政组织

耳鸣患者正电子发射计算机断层扫描检测及初步临床分析

目的了解耳鸣患者中枢代谢特点,探讨掩蔽治疗时中枢代谢变化规律。方法选取5例正常听力的耳鸣患者,同时选取20例行正电子发射计算机断层扫描/计算机体层扫描（positron emissio

期刊

耳鸣正电子发射断层显像术听皮质

领域自适应学习算法及其应用研究

与本文相关的学术论文