论文部分内容阅读
聚类就是按照事物或研究对象个体间的相似(异)性对研究个体组成的群体进行区分和分类的过程,在这一分类过程中因为事先没有训练样本集,因此是一种无监督分类过程。而聚类分析就是根据所研究对象之间的亲疏程度,在对数据集不作任何假设的前提下,利用数学和统计学的方法研究和处理所给对象的分类,并确定合理聚类数(或称分类群组数)的一种多元统计分析方法。“物以类聚,人以群分”形象地表述了聚类的实质。尽管聚类是一个古老的问题,但它伴随着人类社会的进步与发展而不断深化,人类要认识世界就必须区分不同的事物并通过认识事物间的相似(或相异)性,以便从某个层面上有助于把握事物的本质属性和特征。聚类分析是数据挖掘、模式识别和机器学习的重要研究内容,作为数据分析和理解的重要方法,聚类分析的重要性与其他研究方向的交叉特征得到了各界学者们的普遍肯定。聚类分析方法也已广泛地应用于社会科学和自然科学的各个领域,譬如心理学、生物学、医学、通讯和计算机等。长期以来,人们根据不同领域需要和不同问题的属性,提出了各种不同的聚类分析方法,其中最为经典的方法是所谓K-均值法。尽管随后提出了很多动态聚类算法,但大多以其作为基本模式,即假设在给定聚类数的前提下,根据待聚类样本的内在属性,通过优化类中心或隶属度,将各个研究对象划分到各个类中。但诸多此类算法的不足之处是,没有给出行之有效的确定聚类数的方法。一般在实际问题的讨论中,事先对给定数据的结构及具体的聚类个数等信息掌握得不够充分(有时甚至一无所知),而确定客观而准确的聚类个数往往又是一个较为复杂的问题。同时,很多聚类算法(包括大多数动态聚类算法)要求事先必须提供有关聚类数的信息,以便实施算法运行过程。而且这类算法普遍存在聚类结果对初始聚类个数依赖性较大的问题,这将导致聚类算法有可能停留于局部最优解,从而最终聚类结果的可靠性无从把握。本学位论文主要围绕聚类分析中最佳聚类数的确定和与之相关的聚类结果有效性问题给出讨论,在对传统的聚类算法和聚类数确定问题的分析和归纳的基础上,把经改进的模拟退火算法应用到聚类分析中,提出一种基于概率摄动克服局部最优解的自确定聚类数的动态聚类算法,以尽可能实现确定合理聚类数和聚类过程的同步进行。本文主要的研究工作可归纳为如下:(1)阐明课题研究的背景和研究意义,分析了本课题研究的现状,介绍了聚类分析的基本概念和研究方法。(2)介绍并分析与传统K-均值算法相关的一些聚类数的确定方法。(3)基于改进的模拟退火算法,提出了一种确定最佳聚类数的算法,并通过实际应用中的若干实例分析验证了其可行性和有效性。文章的最后提出了对今后研究工作的展望。