论文部分内容阅读
对训练数据的建模是机器学习中的一个核心问题,本文将数据建模的两种经典方法——流形学习与统计学习作了结合,相互取长补短。在我们之前一些相关工作的基础之上,本文基于黎曼流形等方面的背景提出了一个完整的理论框架,设计了两个互补的优化算法,并通过大量的收敛性证明,凸性分析,以及计算复杂性等分析,将算法的外沿和应用范围作了极大的拓展,同时本文还设计了一套高效灵活的通用概率推断引擎,称为YASIE(Yet Another Statistical Inference Engine),使得所有这些方法可以用类似搭积木的方式进行自由组合。在此基础上,我们给出了这些方法和工具应用在两个经典的机器学习问题上的实验结果。对于训练数据大部分没有标记的半监督学习,本文总结的方法能取得尤其好的效果,相关的工作发表在ACMMultimedia,IEEE TKDE等国际一流会议和杂志上。流形学习是假定训练数据的本征维度比它们实际的维度要小很多,可能出现的数据分布在其所在高维空间中的一个低维的子流形上。而流形学习的任务是要用给出的有限个样本来推测流形的结构,计算并逼近一些对应的真实流形相应的几何性质,如低维子流形嵌入,切空间,拉普拉斯算子等。现有的流形学习通过在样点数据之间建立一个邻接关系图,并由这个图的结构诱导出一个用于优化图上每个节点的标记的目标函数。它的特点是高度非参数,对于数据间的结构的把握高效精准,恰到好处,并且常常可以证明用图结构离散地计算得到的结果在样本数足够多时能收敛到连续的情况。但它的问题在于应对多模态,具有复杂数据结构的输入训练数据时,显得力不从心。数据的结构上的关系不能得到有效地建模,并且很难应用先验信息。此外,为适应动态变化的数据而提出的在线学习的需求常常很难用流形学习得到满足。另一方面,统计学习通过使用具有一定分解形式的联合概率分布来建模给出的数据,得利于统计学深厚的积累,对于上述流形学习所遇到的问题能有比较好的解决方案。但它的问题在于模型通常是高度参数化的,它能否很好地拟合给出的数据依赖于参数形式指定地是否准确,对于数据分布在比较复杂的流形上的情况,同样捉襟见肘。本文从两个不同的途径结合两种学习方法,一种是把流形学习诱导出的目标函数添加到统计学习的优化准则中,作为一个正则项。本文大部分成形的工作基于这个思路。另一个途径是用统计学习的一个基本工具一一概率图模型,直接去建模用于流形学习的邻接关系图,使得它所反应的概率依赖关系在概率图上得到直接的表达,从而更自然得融入到原有的统计学习中去。并且我们可以证明:(ⅰ)部分流形正则项可以用一定形式的概率图表达;(ⅱ)部分概率图表达的邻接关系图可以用一定形式的流形正则项解释。相关工作还在探索中。