一种粒度融合的新闻文本主题分类模型

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:sying1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文新闻文本主题分类任务中通常只考虑字符粒度或者词粒度中一种粒度的Embedding,这往往会使得在特征提取过程中丧失了另一种粒度的特性.本文针对中文新闻文本主题分类任务,提出了一种基于字符粒度与词粒度融合的分类模型.通过中文文本特有的字、词、句的句法关系与字-词包含关系,对字、词进行嵌入,构成字向量、词向量并进行粒度融合.选择卷积神经网络提取新闻文本语义、上下文特征,对中文新闻文本进行主题分类.在THUCNews、搜新闻数据两个公开数据集上进行模型性能测试,该模型的分类准确率分别为97.48%、97.64%,结果表明本文提出的模型性能显著提高.
其他文献
随着人工智能技术的高速发展,基于神经网络的机器翻译技术愈发受到人们的重视.然而,限于有限的数据资源,基于该方法的小语种翻译效果并不理想.乌尔都语作为印度和巴基斯坦的