论文部分内容阅读
随着Internet的大规模普及和上网人数的急剧增加,网络上每天产生的各种短文本数量呈指数式增长。这种半结构或无结构化互联网文本信息具有稀疏性、不规范性、流行语不断出现等特征。互联网短文本分类作为信息处理的关键技术之一,在信息检索和知识挖掘领域已经取得很大进展。为提高中文短文本分类精度和解决文本表示稀疏问题,提出了一种基于混合神经网络的中文短文本分类方法(Chinese Short Text Classification Method Based on Hybrid Neural Network)。该方法首先通过一种自定义特征词筛选机制将文档以短语和字符两个层面进行特征词筛选。运用卷积神经网络(CNN)和循环神经网络(RNN)相结合提取文档的高阶向量特征,引入注意力机制优化高阶向量特征,最后接一层分类器分类表示。实验结果表明,在二分类以及多分类数据集上,该模型不仅能够提取出文档的短语层和字符层特征,在分类精度上比单模型取得的效果更好,而且也可以解决文本表示稀疏问题。本文的主要工作和创新点具体如下:(1)针对中文分词后突出词不明确问题,提出一种自定义特征词筛选机制。该方法通过将某一类别下的整个数据集经过人工筛选和结合网络信息构造出一个高质量的全局字典D_j,这个字典包含了该类别下所有经过筛选后的高质量短语,筛选的标准是人工判断和结合网络信息提供的与该类别相关度高的短语,最后将该类别下的每一篇文本用这个全局字典进行线性表示。(2)鉴于传统的特征表示方法不能真正表示出文本的语义特征,提出一种卷积神经网络(CNN)和循环神经网络(RNN)相结合的高阶特征提取网络,为了进一步突出提取到的高阶特征向量,提出一种优化高阶特征向量的注意力机制方法。得到优化后的短语层和字符层向量进行合并,作为文档最终的向量表示。(3)论文中选择了三个神经网络模型作为对比实验的基线模型,包括CNN、LSTM和CLSTM。实验结果表明,本文提出的混合神经网络中文短文本分类方法在二分类和多分类数据集上都取得了比对比模型更好的结果。