论文部分内容阅读
分类和排序学习是基于数据模式判别的有监督学习问题。针对一般有监督学习应用的本质需求,分类和排序学习需要考虑如下几个因素。首先,数据在特征空间的分布中通常具有复杂的非线性几何结构。由于空间中的几何拓扑可通过一个距离度量函数刻画,我们需要学习一般的非线性距离度量函数以有效恢复数据分布的几何结构。其次,数据来源中普遍存在不可靠的噪声样本。模型需要区分特征中可靠的模式,鲁棒地反映数据的全局分布。第三,快速涌现的新领域中常常缺乏标定的训练数据。这要求模型能处理训练和目标数据具有相关但不同的特征和语义分布的情况,从训练数据中提取可适应目标数据的知识,实现有效的跨领域知识迁移。根据上述分析,本文从以下三个方向开展研究:挖掘数据分布的内在几何结构,建立学习模型的鲁棒性,和实现可适应的知识迁移。本质上,这三个方面分别针对了机器学习研究的三个基本原则,即模式挖掘的有效性、鲁棒性和可适应性。它们之间具有互相促进和补充的潜在联系。有效性关心模型拟合数据分布的精确性,关注捕捉数据分布丰富的局部非线性结构。鲁棒性关心模型拟合数据分布的全局性,关注捕捉数据的整体、全局的分布结构。可适应性关心模型提取领域间共享知识的能力,关注模型对未知领域的探索。在调研大量前人工作的基础上,本论文利用上述三个研究方向间的内在联系,提出了新颖的排序和分类学习模型,旨在实现对数据模式结构的有效挖掘,鲁棒学习和知识迁移的联合优化。本文工作取得了如下的研究成果:一,本文提出了基于Bregman距离度量函数的结构排序学习算法。Bregman距离函数族是一类有灵活、泛化的非线性形式的距离度量函数。算法利用该距离函数的非线性建模能力,学习适应数据的Bregman距离函数以有效挖掘数据分布的一般结构及语义校准。另一方面,算法基于结构学习思想建模,利用排序列表的序列结构信息以学习适应排序任务的模型。该算法提供了一个联合的距离函数学习和排序学习的一般框架,通过同时建模数据的非线性分布模式和输出列表的整体结构,实现了对排序模型的数据适应和任务适应的联合优化。二,本文提出了一个有效鲁棒的统一的分类学习框架,自步提升学习(Self-Paced Boost Learning)。该框架揭示和利用了基于有效模型选择的提升学习方法和基于鲁棒样本选择的自步学习方法的一致性和互补性,将分类模型形式化为联合的判别性模型选择和鲁棒性样本选择过程。模型通过同时从弱到强地学习分类器和从易到难地学习样本,能够在捕捉类间判别性模式的同时保证被学习样本的可靠性,实现了分类学习的有效性和鲁棒性的联合增强。三,本文提出了受语义相关性约束的可适应零样本分类模型,从知识迁移的角度研究零样本学习问题(从有训练数据的可见类别学习对无训练数据的目标类别的分类器)。模型引入了新颖的语义相关性正则化(Semantic Correlation Regularization,SCR)方法,通过约束分类器的输出符合类别间的语义相关关系,来挖掘训练类别和目标类别共同的特征和语义模式,增强模型对目标类别数据的适应性。模型基于联合的受SCR正则化的提升优化和自控制的样本选择作形式化,通过对分类器的判别性、鲁棒性和跨语义可适应性的联合增强,在零样本学习上实现了有效的知识迁移。