论文部分内容阅读
近几年,用学习理论解决数据分析问题已成为统计学的研究趋势之一。问题规模与复杂性日增的现实,需要更具效率的学习方法。本篇博士论文在统计学习理论的框架下,应用核方法,提出几种新的学习思路,建立了一套多核的支持向量回归机,并成功的应用于实践预测。与传统的学习方法相比较,所设计的新思路更具效率,能以低的计算代价取得期望的预测效果。传统的核学习方法包含的一个主要问题是建立学习模型后采取什么样的优化算法。基于此,本文的第一个创新点是在求解最小二乘支持向量机模型时,针对工作集的选择提出了一个单向收敛序贯最小优化算法(SD-SMO),该算法要求在迭代过程中仅优化一个拉格朗日乘子,使目标函数基于拉格朗日乘子的梯度单向收敛于0。在标准数据集上的数据试验表明,SD-SMO几乎没有降低学习精度,能有效减少算法迭代的次数,降低了计算成本。为了克服传统的核学习方法需要选择具体核的难题,针对多源数据或异构数据,研究者提出了多核学习方法(MKL)。多核学习的核通常是一族核函数的组合,由核函数族构建的学习核得出预测模型,传统的多核学习是基于l1范数,但模型的稀疏解降低了模型的预测精度。本文的第二个创新点是在l1范数的多核学习基础上,将其推广,得出基于lp(p>1)范数的多核支持向量回归模型,该模型能有效克服稀疏化解降低学习精度的问题,提高了预测效果。针对提出的基于lp(p>1)范数的多核支持向量回归模型求解,本文给出了一个相互交错、轮流优化的算法。在真实的经济数据上的试验结果表明,该方法预测效果比单核支持向量回归及基于l1,范数的多核支持向量回归模型都有明显提高。对于机理复杂、时变性强的数据,在线多核学习方法近来得到了研究者的青睐,也是当前机器学习领域中的又一个研究热点。基于此,本文的最后一个创新点是构建了一个在线多核学习预测框架,并给出了一系列的算法和理论分析。优化算法采取的是两种在线学习算法的融合,考虑到在线学习过程中计算成本逐渐增加的问题,应用了加权随机抽样策略,降低了计算成本。在标准时间序列数据集上的实证分析表明,在线多核支持向量回归预测模型以较大的计算成本获得了较好的预测效果;在采取随机抽取策略以后,能保证较高的预测精度,使学习时间明显减少。以学习理论解决数据分析问题将给统计学带来新的活力,本论文在此方面做了有益的尝试,所得成果的应用不仅仅局限于预测,其构造思路与相关理论技术也可以推广到其他学习领域,论文所做的工作丰富了数据分析处理的理论方法,对统计实践具有一定的指导意义。