论文部分内容阅读
在互联网上的文本信息量飞速增长的同时,人们对互联网上的论文文献进行查阅和整理所需要耗费的时间也越来越多。在这种背景下,利用文本聚类技术来对海量的文献进行分类整理,具有非常重要的应用前景与研究意义。文本聚类是文本挖掘的一项重要技术,能够广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层级归类的自动生成方面都具有重要的应用价值。文本聚类的首要问题是如何将文本数据以数学形式表示出来,同时传统的文本聚类算法忽略了文本中单词之间的语义相关性,以及传统聚类算法存在聚类结果不稳定等问题。本文主要是针对以上问题对文本聚类进行研究。本文使用搜狗中文语料库、复旦大学中文语料库和哈尔滨工业大学中文语料库中的中文文本数据作为实验的数据集,通过利用word2vec工具对文本数据做词向量转化、利用卷积神经网络对文本数据进行特征提取以及利用基于K-means改进的KSDM聚类算法对文本数据进行聚类,达到对论文文献聚类的目的。本文主要工作如下:1、本文首先探讨了文本聚类算法的研究意义及国内外研究现状;分析了当前传统的文本聚类算法存在的不足;2、研究了常用的几种文本聚类算法,卷积神经网络的基本原理,以及词向量的转变和word2vec工具的基本原理。3、设计了基于卷积神经网络的文本特征提取方法。搭建了卷积神经网络模型,选取了卷积神经网络的各项参数。通过实验验证本文设计的基于卷积神经网络的文本特征提取方法的有效性。4、设计了基于k-means改进的KSDM聚类算法。在传统的K-means算法的基础上,针对其自身的不足提出了一种新的孤立点检测算法和一种新的聚类中心选取算法。实验结果证明了KSDM算法的有效性。5、在理论研究的基础上,将word2vec工具、卷积神经网络和KSDM聚类算法相结合,提出了基于卷积神经网络的文献分析框架。首先需要对文本数据进行分词、去除停用词、以及词向量转化等预处理过程,然后将得到词向量存储到向量矩阵中并输入到预先训练的卷积神经网络中来提取文本特征,最后,将得到的特征输入到KSDM聚类算法中进行聚类,已实现对测试文献聚类。实验结果验证,本文算法有效的提高了现有的文本聚类算法的准确度,并且具有较高的扩展性和灵活性。