论文部分内容阅读
高斯混合模型作为一种很强的统计学工具已经被广泛应用到数据分析和信息处理领域。由于在数据建模上的灵活性和适应性,高斯混合模型的建模和参数学习已成为统计学习中的一个重要方向,并建立了多种学习理论与算法。在实际应用中,高斯混合模型常被用于进行聚类分析、决策分析、图像处理、生存分析等。
如果高斯混合模型的分量个数是已知的,有很多经典的算法可以用来进行参数估计,这其中包括著名的EM算法。但是在实际应用中,这个关键的信息一般是无法获得的,而要通过对样本数据结构的学习得到。而这种学习又同模型的参数估计耦合在一起,使得整个混合建模过程变得异常复杂和困难。由于混合模型的分量个数反映了其规模和复杂度,因此分量个数的选择问题被称为模型选择问题。本文针对高斯混合模型的模型选择与参数估计,提出了三种正则化学习方法,这三种方法都能自动探测数据中的真实分量个数,并且得到模型参数的极大似然估计。
这三种方法的前两种都建立在贝叶斯阴阳(BYY)和谐学习的的理论框架下。BYY和谐学习的优点是能够在参数学习的过程中实现模型选择,但其得到的参数估计不是一致的。本文中,我们将似然学习看成是BYY和谐学习加上一个熵正则项的形式,通过动态调整正则化参数,我们的算法能先完成模型选择然后给出一致的极大似然估计。这两种方法的区别在于采用的和谐学习的结构不同(后向结构和双向结构)和正则化参数的演化过程不同。第一种方法中正则化参数的演化路径是给定的。为了提高算法的效率,在提出第二种方法的时候,通过分析学习过程中参数变化的特征,我们设计了自适应的正则化参数演化过程。第三种方法从极大似然学习的角度出发,引入后验熵作为正则项,这是在解决过拟合问题常用的方法。通过动态调整正则化参数,该算法同样能实现模型选择并得到一致的参数估计值。大量的模拟和实际数据实验表明,文中所提出的三种方法都能自适应的决定高斯混合模型的模型选择问题,而且选择结果稳定。通过跟别的模型选择算法做比较得出,动态调整正则化参数使模型收敛到极大似然估计的思想的确能提高参数的估计精度。
有限混合模型学习的另外一个重要问题是变量选择。随着科学技术的快速发展和计算机存储能力的快速提高,从事应用学科的研究者们经常会碰到包含大量预测变量(variable)的数据集。在解决一些实际问题的时候,这些预测变量并不都与响应变量(response variable)有关,因此,筛选出真正起作用的预测变量不仅能帮助研究者深入理解预测变量与响应变量之间的关系,给出合理的分析和预测,还能节约研究成本。本文的最后一个章讨论如何在和谐学习的框架下同时做模型选择和变量选择。通过特殊的关于“相关变量”的定义,让每一个变量对应一个概率值,用这个概率值衡量某个变量是相关变量的可能性。在这个定义的基础上,我们设计了一个基于BYY学习框架的两步优化算法来估计模型参数。模拟实验证明了我们的算法在变量选择问题上是可行的和有效的。