论文部分内容阅读
聚类分析作为数据挖掘、机器学习领域中的重要分析方法,近几十年来得到了许多专家学者的深入研究。如今,随着互联网的发展,各种数据源大量涌现,聚类分析方法也因此得到了较快的发展,并取得了许多成果。然而,聚类分析目前仍存在许多问题,其中之一就是最佳聚类数的确定问题。针对该问题,本文深入研究了聚类分析及聚类有效性评价,提出了一种新的聚类有效性指标,对现有的K-means算法进行了改进,并对中文新闻文本聚类这一实际问题进行了算法应用。本文的主要研究成果如下:1、提出一种基于泛化能力的聚类有效性指标——GA指标,该指标通过当前聚类结果对样本集中其他数据的泛化能力来衡量聚类有效性。通过逻辑推理和数据实验,证明该指标能较好地实现对聚类结果好坏的评价。2、结合本文提出的GA聚类有效性指标,提出一种基于GA指标的K-means最佳聚类数确定方法KGA算法,解决了K-means算法需要事先确定聚类数这一缺点。通过人工数据集以及真实数据集检验,该方法能够有效确定K-means聚类的最佳聚类数。3、基于GA指标以及KGA算法,设计出一个中文新闻文本聚类框架。该框架通过GA指标以及KGA算法对K-means算法进行改进,并将改进后的K-means算法应用到中文新闻文本聚类的实际问题中。通过对1800篇新闻进行实验,本文提出的中文新闻文本聚类框架的实用性以及有效性都得到了验证。