论文部分内容阅读
聚类分析一直以来是统计学中一个重要的组成部分,伴随信息技术的快速发展,数据量的迅猛增加,聚类分析对于数据的处理和分析越来越重要。基于模型的聚类算法近年来得到了广泛的关注。它的主要思想是:假设数据服从某一个混合分布,每个类别可以用混合模型的分支去拟合,通过估计该混合模型的参数,然后判断数据属于哪一类别,进而完成聚类。而最为常用的是高斯混合模型。当高斯混合模型的阶数大于一并且为有限时,为有限高斯混合模型。其聚类过程对于模型参数的估计一般借助于EM算法。EM算法是缺失数据下的参数极大似然估计的迭代算法,它是一种常用的数据添加算法,其核心思想是通过利用已有的先验知识来迭代似然函数,让其收敛于某个最优值,通过利用EM算法可以极大的简化有限高斯混合模型聚类算法中参数估计的过程。本文总结了目前基于有限高斯混合模型聚类算法的研究现状,深入研究了有限高斯混合模型聚类算法和聚类过程中借助EM算法对参数进行估计的原理,结合目前在有限高斯混合模型聚类算法的研究方向,以有限高斯混合模型聚类算法中EM算法对初始化敏感、容易陷入局部最优和运行速度慢三个方面为切入点,提出相应的改进算法。一是提出一种简单、有效、计算量小的基于三分位数的EM算法初始化方法;二是在对于模型参数的估计提出Bootstrap-EM算法,避免EM算法陷入局部最优同时提高参数估计精度;三是将EM算法与PCA相结合,提出PCA-EM算法,可以有效的提高算法聚类精度和运行速度,解决了当数据集因为协方差奇异而导致EM算法无法进行迭代的问题。经过编程,在R软件中对以上所提出的算法利用UCI上的四个数据集进行了验证分析。结果表明,所提出的几种算法可以有效的解决有限高斯混合模型聚类算法过程中EM算法所存在的问题,并且提高了聚类结果的准确率。