论文部分内容阅读
随着互联网和信息技术的快速发展,网络新媒体已经成为信息交互的有效平台。其中非结构化的新闻文本作为信息的一种重要承载形式呈爆炸式增长。如何高效准确地对海量新闻文本进行分类,提取所需信息是当前最热门的研究课题之一。并且由于其内容简短,表达方式多样化和语法结构不规范,增加了分类的难度。所以目前迫切需要一种有效的文本分类算法对文本语义进行更好地提取,从海量的新闻文本中挖掘出有价值的信息。自深度学习思想被提出以来,已经在图像识别、机器翻译和语音识别等领域中取得了出色的表现。和传统机器学习算法相比,深度学习模型通过多层非线性空间的变换,能够刻画出数据的本质特征,为提高新闻文本分类模型的准确性提供了良好的基础。深度学习模型中的卷积神经网络(Convolutional Neural Network,CNN)已成为一种主流的文本分类模型。本文提出了一种基于卷积神经网络的新闻文本分类框架,对文本分类中的特征表示、特征提取和分类器构造等关键环节进行了不同程度地改进。本文的主要工作如下:(1)文本的特征表示方法对最终分类结果有很大的影响。基于分布式表示的word2vec词向量将词映射成d维空间中连续稠密的实数向量,通过计算向量间的余弦距离可以来衡量词语间语义相关性。本文将卷积神经网络模型的输入层使用词向量替换传统的one-hot向量,通过CBOW模型训练词向量,对词进行向量化表示。针对词向量只能获得词的上下文的语义而缺乏对文本整体语义信息的弱点,引入LDA主题模型,将词向量和主题向量进行拼接得到一种更有效的特征表示方式,更好地提取文档的浅层语义信息。(2)在从文本的词粒度级别出发对特征表示进行优化的基础上,结合注意力机制,赋予影响文本分类结果的关键特征更高的注意力概率值;在卷积层中设计不同尺寸的卷积核文本的深层语义特征进行提取。在池化层使用最大池化方法对特征进行降维和压缩。最后高质量的特征向量在全连接层进行连接并且通过softmax分类得出文本所属类别。实验结果表明,本文模型的准确度、召回率和F1值分别达到96.4%、95.9%和96.2%。说明改进后的CNN模型通过特有的层次结构,能够从文本浅层语义特征中提取深层语义特征,为建立高效精准的新闻文本分类模型提供了有力的支持。