论文部分内容阅读
聚类技术作为数据分析中的重要手段,在信息爆炸的现代生活中变得越来越重要。为了获得符合常识的信息,人们对数据进行总结和归纳,利用自身的经验将数据聚类为知识。如今,在各个领域都产生了大量且复杂的数据,对一些领域的信号进行分析的复杂度远远超出了人的分析能力,这就使利用机器代替人工分析数据成为亟待解决的问题,也是人类智慧向人工智慧的跨越。人工神经网络是以大脑神经元为原型的数据分析算法,其与聚类技术的结合将使聚类技术更加符合数据内在的规律,进一步提高聚类算法的性能。为了探索人工神经网络与聚类技术相结合的方式,本文进行了如下研究工作:首先,本文回顾了聚类技术的发展历程,在分析聚类算法所涉及相关技术的同时,寻找人工神经网络与聚类技术相结合的切入点。通过总结各种聚类算法及人工神经网络的联系与区别,本文发现超限学习机模型拥有能够契合迭代式聚类算法的特点,并尝试将其与经典的迭代式聚类算法——K均值算法相结合。其次,为了研究超限学习机模型与K均值算法的结合方式,提出了一种基于K均值算法迭代聚类框架的模块化描述。通过划分和拓展K均值算法的步骤,归纳出包括特征空间映射、初始化聚类中心、相似性函数、聚类中心更新以及判断终止条件这五个关键模块,并阐述了实现各个模块的技术方案。接着,本文具体描述了超限学习机模型与K均值算法的结合方案,提出基于超限学习机的聚类算法(K-Extreme Learning Machines Clustering,KELMC)。为了使得该方法能够适应不同的数据环境,本文依据前面提及的各模块实现方案,提出了两种针对KELMC算法的优化策略,即基于ELM-AE与PCA特征空间的KELMC算法和半监督流形学习的KELMC算法。最后,本文分别在人工数据集和UCI数据集上对所提出的三种方法进行了聚类性能的分析与验证,并在实验过程中讨论了所提出方法的参数选择问题。实验结果显示,本文提出的KELMC算法将超限学习机模型与聚类技术进行了有效结合,并在多数数据集上获得了较好的聚类效果,具有较强的适应与泛化能力。