论文部分内容阅读
有限混合模型是分析复杂现象的一个灵活而强有力的建模工具,它提供了用简单结构模拟复杂密度的一个有效方法,给出了模拟同质性和异质性的一个自然框架和半参数结构。基于有限混合模型的聚类是一种重要的聚类分析方法,而EM算法(Expectation-Maximization algorithm)是估计混合模型参数的重要方法。传统的EM算法对初始聚类中心比较敏感,因此如何选取初始值成为运用EM算法实现有限混合模型聚类中的一个重要问题。本文提出一种基于网格的聚类算法来初始化EM算法,旨在改善EM算法的初始敏感性,使其达到更佳的聚类效果。此算法根据网格单元密度高低来识别孤立点和噪声点,利用相似性度量进行聚类,利用网格核思想来降低时间复杂度。仿真实验结果表明,该方法时间复杂度较低,且用该方法优化初始聚类中心后的EM算法有着很好的稳定性和精确性。如何选取有限混合模型最优分支数是一个相当重要又困难的问题,本文综述了几个基于Bayesian理论和信息编码原理的方法,并重点讨论了MML-EM算法。通过研究聚类算法在图像处理上的应用,提出了一种基于高斯混合模型聚类的图像检索方法。该检索方法首先提取每幅图像的特征,并以特征值为数据集建立高斯混合模型,得到所有图像的高斯混合模型。再以所有图像的混合模型参数集作为数据集,用基于高斯混合模型的聚类算法进行聚类。最后输出检索例图所在的类,即得到检索结果。