论文部分内容阅读
在模式识别这个领域中,混合模型是统计模式识别最主要的模型之一.混合模型的估计方法有很多,其中研究最多并且为人们所熟知的是EM算法.然而局部优化的EM算法可能会遇到一些问题,比如初始模型参数的选取,有时该算法还可能表示出不同的收敛速度,另外最困难就是模型阶数(模型的成分个数和维数)的确定.在混合模型中一个越来越重要的任务就是模型选择问题,即选择模型的成分个数和维数.目前的研究方法有MCMC还有变分法等等,但是解决的效果都不是很好.该文主要是利用Boosting算法的思想得出的一个估计混合模型的递归式算法.该算法可以相对精确地估计出混合模型中成分的个数,同时还可以得到模型中参数的估计.Boosting算法的主要思想是根据训练数据目前的权重调用某些基础分类算法从而更新训练数据的权重,不断这样迭代,最终得到这些基础分类器的加权组合.这个最终的分类器的效果明显高于那些基础的分类器的效果.最近许多专家把Boosting解释为是一种寻找最小化损失函数的分类器组合的梯度下降算法.Mason等人在他们的一篇文章中提出在分类器空间中寻找与损失函数的负梯度内积最大的分类器做为新的迭加的分类器这样的思想.既然Boosting可以理解为一个熟悉的优化问题,我们就可以把这一思想用到混合模型的建模中去,其中损失函数取为负对数似然.我们给出适当的停止规则就可以估计出一个模型的理想成分的个数.在算法具体的执行中我们将Bagging这样的方法用到其中可以使我们的算法产生较为理想的停止规则.从而避免了的成分数的选择和其他方法存在的某些问题.而且因为它以迭代的方式来估计参数的,因此该算法也适用于复杂密度的混合.我们的模拟实验也证明了它的上述特点.