论文部分内容阅读
在经济社会问题中,许多实际任务都可以转化为回归问题,比如,市场趋势预测、人口预测、经济发展因素分析、股价预测等。排序学习在实际中也有许多应用的例子,比如,作为一个有力工具,排序学习在信息检索、质量控制、生存分析、计算生物学等方面有着许多实际应用价值。在回归分析中,经常遇到非线性问题,此时常用的回归方法,如多元线性回归、多元逐步回归、线性分位数回归等方法,就不能对数据进行有效拟合和预测了。核函数的表示方法,通过定义一个核函数作为非线性变换,将输入空间的非线性数据映射到高维的特征空间,然后在这个线性的特征空间中构造回归函数,而且只需要计算数据在特征空间的内积就可以表示数据的特征。因此利用核函数技术,不失为解决非线性回归问题的一种有效方法。在进行回归分析时,基于经验风险最小化准则的回归算法属于不适定问题,在样本量较小时容易出现“过拟合现象”,虽然对训练数据有较高的拟合度,但是对未知数据的预测能力差,模型的复杂度过大。为此,Tikhonov提出了正则化的方法,在期望风险后面加上表示模型复杂度的正则化项,在这种结构风险最小化准则下进行回归学习。核正则化方法同时结合核函数技术和正则化方法的优点,是学习理论当前采用的一种新方法。本文基于核正则化方法,在最小平方损失下,对回归学习和向量排序学习的收敛速度进行研究。对算法的误差上界进行量化分析,以此来衡量根据训练样本学习到的算法对未知数据的预测能力,探讨算法的收敛速度是否受到再生核空间的凸性、逼近性能和容量的影响,这是学习理论中的一个焦点问题。本文的主要研究内容和创新点体现在以下三个方面:1.近年来已经有许多文献对再生核Hilbert空间的正则化回归学习算法的收敛速度进行了研究。但是由于Hilbert空间的结构简单所以有局限性,实际上许多数据不满足由Hilbert空间的内积诱导的距离。因此有必要扩大假设函数空间,Banach空间就是一个合理的选择。对再生核Banach空间的正则化回归学习算法的收敛性进行分析,这是一个新的研究领域,一个关键的理论问题是Banach空间的几何性质如何影响收敛速度。论文的第三章在Banach空间B具有q-一致凸性(其中q>l),有一致连续的再生核等假定下,对再生核Banach空间的正则回归学习算法的收敛速度进行了研究,分别推导出了以期望均值和经验均值表示的学习速度,结果表明Banach空间的一致凸性会影响核正则化回归算法的学习速度,改进了现有文献中得到的学习速度。之后给出符合定理条件的再生核Banach空间的例子,说明了定理条件的合理性。2.对于Banach空间无凸性要求的情况(= l),目前尚未见到对此时再生核Banach空间的正则化回归算法的收敛性进行分析,论文的第四章展开了这方面的研究,以期望均值的形式推导出了该核正则化回归算法的泛化误差的概率上界。研究结果表明此时正则化回归算法的期望误差上界与样本量、再生核Banach空间的复杂度、逼近误差、输出空间Y的取值上界M、再生核等有关。3.排序学习可以看作是特殊的回归问题,但是也有它的不同之处。在排序问题中,通过学习一个实值函数用以对样本进行打分,但是得分本身并不重要,关键在于通过这些得分对研究对象进行相对排序。近年来,将排序理论和机器学习结合起来,形成了核正则化排序方法。将一般的排序问题扩展为向量排序问题,这是一个新的研究内容。在论文第五章中,利用假设空间的覆盖数、再生性等特点,对最小平方损失下再生核Hilbert空间的正则化向量排序算法的收敛速度进行了定量研究,利用Gateaux导数给出了最优解和未知分布之间的定性关系,从数量上分析了解的稳定性问题。最后,根据再生核Hilbert空间的逼近性能和容量,推导出了向量排序学习算法的收敛速度。此外,蒙特卡洛数值模拟和经济预测的实证分析结果都表明,核正则化回归方法是处理非线性回归问题的一个有效途径。