论文部分内容阅读
传统的机器学习假定训练域与测试域独立同分布,将由训练数据集得到的模型直接应用于测试集。但在实际应用中,这种假设并不一定成立,若训练域与测试域分布存在差异,则传统机器学习的性能将会大大降低,故领域自适应学习得以提出,其目标是在领域间建立桥梁,提高测试域预测性能,并广泛应用于解决现实世界中的分类、回归、概率密度估计等机器学习问题。目前,许多国内外专家学者对领域适应学习进行了深入的研究,并获得了许多重要的研究成果,且广泛应用于实际生产中,但仍有许多问题需要进一步的探索和研究。本课题主要从概率密度估计、支持向量域描述、分类、回归等4个方面进行深入的领域自适应学习研究。主要内容如下:1、基于最小包含球的领域自适应学习。相同应用领域,不同时间、地点或设备检测到的数据域不一定完整。针对如何进行源域与目标域间知识传递的问题,在支持向量域描述、分类与回归等问题在数学模型上均可等价于中心约束最小包含球的前提下,首次提出相似领域的概率密度差可由两域最小包含球中心点表示,且其上限值与半径无关的定理。基于此定理,提出一种新颖的领域自适应算法,算法中心思想是先将各算法的数学模型转换成其各自等价的最小包含球模型,再利用源域最小包含球中心点对目标域最小包含球中心点进行校正,从而提高目标域机器学习的性能。这种传递中心点,即源域知识的领域自适应算法具有源域数据隐私保护的优点,且新算法仍等价于中心约束最小包含球的理论证明,使所提算法可利用核心集技术解决大规模数据集问题。实验结果表明,这种领域自适应算法可弥补目标域缺失数据的不足,大大提高算法性能。2、基于SVM的领域间迁移学习算法。当与某领域相关的新领域出现时,标注这个新领域样本可能代价昂贵,而丢弃所有旧领域数据又显得十分浪费。故提出基于SVM算法的迁移学习新算法TL-SVM,其主要思想是SVM分类器由(w,b)组成,若两领域相关,则两域分类器各自的w值应相近,通过训练目标域少量已标签数据和学习源领域的知识w s来为目标域构建一个高质量的分类模型,实现领域间的知识迁移学习。该方法继承了基于经验风险最小化的最大间隔SVM的优点,又弥补了传统SVM不能进行知识迁移的缺陷。将上述理论成果进一步应用于基于密度差(Difference Of Density, DOD)思想的L2核分类器。L2核分类器算法具有良好的分类性能及稀疏性,然而其训练域与测试域独立同分布的假设限制了其应用范围。针对此不足,在L2核分类器的数学模型等价于变形SVM的理论前提下,对其等价的变形SVM进行知识迁移学习,提出具有领域间迁移学习能力的L2核分类器,该算法既保持了L2核分类器算法良好的分类性能,又能处理数据集缓慢变化及训练集在特定约束条件下获得导致训练集和未来测试集分布不一致的问题。3、基于浓缩集概率密度估计(Reduced set density estimation, RSDE)算法的领域自适应学习。RSDE算法是一种基于核的密度估计器,它仅使用数据样本中的一小部分的线性组合来表示概率密度估计式,与传统Parzen Window概率密度估计法相比,极大降低计算复杂度的同时实现了数据浓缩的目的,但该算法必须满足训练集与测试集独立同分布条件。本文提出一种新颖的基于RSDE算法的领域自适应概率密度估计方法A-RSDE,通过学习源域(训练域)概率密度函数p (x;θ1),使目标域(测试域)概率密度估计函数q (x;θ2)最优逼近真实密度函数q(x)的同时,与源域概率密度函数p (x;θ1)也最优逼近,达到领域自适应学习目的;并用基于近似最小包含球的核心集快速算法求解A-RSDE,将其应用于大数据集密度估计。上述概率密度函数均可看作密度估计线性组合空间上的概率密度估计式,在此基础上进一步提出密度估计线性组合空间概念,指出若需求线性组合空间内的密度估计函数,可由高斯函数为基函数的线性组合在ISE标准下逼近,并进一步提出密度估计线性组合空间的近似框架。该框架的优势在于可直接对概率密度线性组合函数进行估计而不必依次估计各域的密度函数,与传统概率密度估计法相比具有更好地精度;其参与运算的数据规模为l,l值远小于样本总数,适用于大规模数据集;该框架可应用于分类、数据浓缩、随机变量间的独立性检测、回归模型变量选择、条件概率密度估计等;若使该线性组合空间逼近某已知空间,可用于源域与目标域近似度估计,适用于多源领域自适应学习。