论文部分内容阅读
将若干个简单或普通的模型融合起来形成混合模型用于解决复杂问题是统计学习理论中一个非常重要的策略。实际上,融合多个分类器(Classifier)或者专家(Expert)系统的效果往往超过单个分类器或者专家系统。从上个世纪八十年代末混合模型被用于手写字母的识别,到九十年代初专家混合系统(Mixture-of-Experts)理论的提出与算法的发展,都是人工神经网络领域乃至机器学习领域一个非常重要的进展。本文分析了专家混合系统的EM算法,首先提出了一种单回路的EM算法,然后对于两种典型的EM算法进行了渐进收敛性质的分析,获得并证明了这两种EM算法渐进收敛率的上界。本文还对专家混合模型的一个延伸模型一高斯过程混合模型进行了理论与算法的研究,提出了一种基于留一交叉验证的EM算法。
本文首先介绍专家混合系统的基本概念、数学模型及主要学习算法,高斯过程的基本概念与超参数的学习问题。然后,本文对目前存在的一些专家混合系统的典型EM算法进行分析和归纳。在此基础上,提出了一种不同于已有双重回路EM算法的单回路EM算法,并通过实验与各主要算法进行了比较。进一步通过引入专家混合系统平均重叠度的概念,着重分析了两种EM算法的渐进收敛率的性质,即基于IRLS方法的EM算法与基于Newton-Raphson方法的EM算法,获得并证明了这两种算法的渐进收敛率的上界。最后引入了高斯过程混合模型的基本概率模型,提出了一种基于交叉验证思想的EM算法。本文的主要贡献如下:
1.专家混合系统的单回路EM算法
已有的专家混合系统的EM算法主要是双重回路的EM算法,即在EM的外循环迭代中包含了一个内循环来求解门限函数中的参数。为了有效地解决门限函数参数的求解问题中,本文采用直接求解的方法建立了一种单回路EM算法来学习专家混合系统。该单回路EM算法的提出避免了双重回路EM算法中如何选择内回路迭代步数和学习率等问题。通过实验发现,单回路EM算法比已有的各种算法收敛速度更快,而且在有监督学习中体现了非常高的泛化能力,在测试样本上有着最高的正确率。
2.专家混合系统的IRLS方法与Newton-Raphson方法渐进收敛率的研究
对于专家混合系统,本文首先引入了平均重叠度(Average Overlap Measure)的概念,并且提出了三个假设条件来规范平均重叠度趋于0时的行为。本文获得并通过分析证明了基于IRLS和Newoton-Raphson方法的EM算法渐进收敛率上界的表达式。根据此理论结果,本文进一步得到在大样本情形下当平均重叠度趋于0时,基于Newton方法的EM算法在真实解附近是超线性收敛的,而一般情形下基于IRLS方法的EM算法在真实解附近只能是线性收敛的。最后实验结果也验证了这些理论结果。
3.高斯过程混合模型下基于留一交叉验证概率分解及其EM算法
对于高斯过程混合模型的参数学习,普遍的做法是将有限模型拓展成无限模型,再应用Markov Chain Monte Carlo方法进行抽样。这类方法的一个局限就是计算量比较大,时间比较慢。受启发于留一交叉验证思想在单个高斯过程模型选择中的应用,本文首次将这种思想应用到高斯过程混合模型中,建立了一种新的基于留一交叉验证的概率分解模型。在此基础上,通过引入隐变量而建立了EM机制。在E步中,清晰地回答了每个样本点属于各个高斯过程分量的后验概率。在M步中,由于部分参数不存在解析解而没有办法直接给出迭代式,本文采用了一种基于Wolfe-Powell线搜索的共轭梯度法。基于已有的迭代算法,本文还给出该算法的另一个硬分类(Hard Cutting)版本。实验验证了这种新型高斯过程混合模型EM算法的有效性。