论文部分内容阅读
随着网络技术的飞速发展和普及,信息在急速地膨胀,为了有效地从浩如烟海的信息中发现对自己有用的信息,数据挖掘技术和知识发现技术应运产生。因为文本是信息载体中最重要的,文本挖掘也相应地成为数据挖掘中最重要的领域之一。聚类技术是文本信息挖掘技术中的核心技术之一,近年来文本聚类的研究取得了长足的发展。由于文本是非结构化的数据,要想对其进行聚类,必须通过预处理技术将其转化为结构化的形式。所以,本文首先系统地介绍了文本预处理技术,如分词、词干还原、降维等。聚类技术是文本聚类领域的关键技术,自上世纪50年代以来,人们提出了多种聚类算法,SOM算法是其中非常著名的一种。接下来本文重点阐述了聚类算法中的SOM算法,并且做了两点重要的改进。SOM神经网络是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM聚类的基本思想是通过网络训练,把相类似的输入映射到同一个输出结点上,从而实现对输入数据的聚类。本文从两个方面对SOM聚类算法进行改进。一是针对文本聚类问题,把文本聚类追求的目标—平均类内离差最小即平均类内相似度最大考虑进去,提出了一种改进的学习策略,该算法把等离差理论引入神经网络的学习过程中,通过调整类内离差来指导神经网络的学习,以使得聚类结果的平均类内离差最小。改进的算法不仅解决了神经元欠利用和过度利用的问题,而且大大提高了文本聚类的结果质量。二是针对随机初始化SOM神经网络连接权值,网络模型训练时间长的缺点,本文运用层次聚类法探测数据密集区域,用探测到的K个数据密集区域的中心点初始化SOM网络连接权值。实验表明,改进后的SOM算法缩短了网络的训练时间,并且不容易收敛到局部最优。同时,为了使聚类结果易于理解和表达,对聚类簇进行合适的标引,以便正确理解聚类簇内容,提高信息处理的性能和效率。