论文部分内容阅读
数据聚类是静态数据分析的一门技术,在机器学习、数据挖掘、模式识别、图像分析以及生物信息等领域受到广泛应用。由于数据统计分布的随机性和复杂性,数据的概率分布往往比较复杂,但是该数据的概率分布总可以采用混合的高斯模型来任意地逼近,本文就研究了混合高斯模型的聚类分析方法。本文研究了两类混合高斯模型。第一类是有限混合高斯模型,基于该模型的聚类提供了一种概率性的方法。为估计有限混合高斯模型的参数值,通常采用EM算法,该算法不需要先验知识,可以实现该模型结构和参数的自动学习,但是其不足之处在于它对初始的聚类中心比较敏感。这篇文章采用三种不同的初始化方法来验证EM算法受初始值的影响。为了克服EM算法对初始值敏感这一缺陷,本文又研究了结合惩罚似然函数法的修正的EM算法。直观地讲,如果一些混合权重或混合概率收敛到零,相应的组件将要被甄灭且合适的混合组件将被保留。该方法的好处在于当我们处理多维的混合高斯模型时,事先不需要假设不同的组件有相同的协方差矩阵。与EM算法聚类结果进行比较,实验分析的结果表明修正的EM算法聚类效果更好。另一类为无穷混合高斯模型。由于有限混合高斯模型进行高维数据聚类分析时,需要预先估计聚类个数,因而聚类的准确性和泛化性受到影响。基于此本文又研究了基于无穷混合高斯模型的聚类,其核心是以Dirichlet过程作为混合权重的先验对高维数据开展聚类分析,好处在于模型中的聚类数可以自动的计算得出,不需独立的确定,具有较强的灵活性和鲁棒性,能够更加准确地拟合数据本身。