论文部分内容阅读
中文新闻文本主题分类任务中通常只考虑字符粒度或者词粒度中一种粒度的Embedding,这往往会使得在特征提取过程中丧失了另一种粒度的特性.本文针对中文新闻文本主题分类任务,提出了一种基于字符粒度与词粒度融合的分类模型.通过中文文本特有的字、词、句的句法关系与字-词包含关系,对字、词进行嵌入,构成字向量、词向量并进行粒度融合.选择卷积神经网络提取新闻文本语义、上下文特征,对中文新闻文本进行主题分类.在THUCNews、搜新闻数据两个公开数据集上进行模型性能测试,该模型的分类准确率分别为97.48%、97.64%,结果表明本文提出的模型性能显著提高.