论文部分内容阅读
文本分类的前提就是文本表示,文本表示的传统方法大多是采用计数的形式,而这种计数的方式认为词与词之间是互相独立存在的,没有考虑到文本语义信息,在特征选择时过多加入了人为的因素,从而导致提取的特征维度高、稀疏性强,无法有效地表示文本信息。而且现在在互联网上产生大量的文本信息,种类复杂以及变化多样性的主题给文本分类带来了很多挑战,如果采用传统的机器学习分类算法去训练模型时,泛化能力弱,尤其当数据集不平衡时。所以,如何更好的文本表示以及新的分类算法成为研究的关键点。在2006年,深度学习逐渐兴起,目前已经在语音和图像领域取得了重大的突破和发展,很多的深度学习研究成果都比传统的机器学习算法有更好的分类效果以及出色的性能,训练的模型,泛化能力更强。本文采用适合短文本分类表示的方法以及利用粒计算模型对短文本特征扩展,并且结合卷积神经网络模型对短文本进行分类,为此本文主要做了以下工作:1.详细地介绍了常见的短文本分类任务中的流程,包括数据预处理、分词、去停用词、特征表示等关键步骤。除此之外,还分析了短文本数据的特点,以及采用传统的机器学习分类算法时遇到的问题,这将为后续本文所采用的文本特征提取、文本特征扩展以及如何设计卷积神经网络模型奠定了基础。2.本文在构建短文本特征表示形式时,并没有人工构建,而是基于Skip-Gram神经网络语言模型训练每个词的word embedding,在训练时,除了自己的语料库,还加入了维基百科的数据,从而能够更好地表达词与词之间的语义信息,提高词的特征表达能力。3.提出一种基于粒计算模型的文本特征词扩展方法,首先利用语料库中训练好的每个词的word embedding,即特征词的词向量,基于所有特征词的词向量构建词向量空间,然后构造出相关的粒化关系对这个词向量空间进行粒化,粒化的结果使得词向量空间中的每个特征词都具有一个特征词类,也称为特征词粒,每个特征词类内部的特征词之间保持高度的相似性,最后选取特征词类中的特征词进行扩展,有效地缓解了短文本数据稀疏性问题,进一步提高了特征词的语义信息。4.设计了四种卷积核的卷积神经网络模型结构,在对每个文本扩展特征基础上,进一步提取了文本信息中最重要的信息,完成短文本分类任务。同时,在训练文本特征时,参数会不断更新。通过三组对比实验,可以得知:相比于传统的机器学习分类算法,本文提出的方法在分类效果上取得了更优的结果;利用词嵌入对文本特征进行初始化,相比于人工随机赋予文本特征初始化,在分类效果上更优异;本文的方法相较于传统的卷积神经网络模型而言也取得了更好的分类准确率。同时,对实验参数设置以及实验结果都给出了详细的结论分析。