论文部分内容阅读
鉴于聚类分析是机器学习和数据挖掘领域的一项重要技术,并且与监督学习不同的是聚类分析中没有类别或标签的指导信息,所以如何选择合适的聚类个数(即模型选择)一直是聚类分析中的难点.由此提出了一种基于Dirichlet过程混合模型的聚类算法,并用collapsed Gibbs采样算法对混合模型的参数进行估计.新算法基于非参数贝叶斯模型的框架,能够在不断的采样过程中优化模型参数并形成合适的聚类个数.在人工合成数据集和真实数据集上的聚类实验结果表明:基于Dirichlet过程混合模型的聚类算法不但能够自动确定聚类个数