结合语义扩展和卷积神经网络的中文短文本分类方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:ganyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文新闻标题通常包含一个或几十个词,由于字符数少、特征稀疏,在分类问题中难以提升正确率。为解决此问题,提出了基于Word Embedding的文本语义扩展方法。首先,将新闻标题扩展为(标题、副标题、主题词)构成的三元组,用标题的同义词结合词性过滤方法构造副标题,对多尺度滑动窗口内的词进行语义组合,提取主题词;然后,针对扩展文本构造卷积神经网络(CNN)分类模型,该模型通过max pooling及随机dropout进行特征过滤及防止过拟合;最后,将标题、副标题拼接为双词表示,与多主题词集分别作为模型的输入。在2017自然语言处理与中文计算评测(NLP&CC2017)的新闻标题分类数据集上进行实验。实验结果表明,用三元组扩展结合相应的CNN模型在18个类别新闻标题上分类的正确率为79.42%,比未经扩展的CNN模型提高了9.5%,且主题词扩展加快了模型的收敛速度,验证了三元组扩展方法及所构建CNN分类模型的有效性。
其他文献
主要研究了在平衡群体中的基因频率的实际运算,探讨了任一群体是否达到平衡的方法,分别介绍了等位基因、复等位基因、伴性遗传、独立遗传情况下的群体基因频率的计算方法.
机载计算机电源内部通常使用线性电源来实现小功率辅助电源。相比常规计算机电源,机载计算机电源还需承受-55℃~+85℃的恶劣工作环境,以及最高80V的过压浪涌。本文对两种常规的
会展经济是国民经济发展的新增长点,是区域经济发展的助推器,树立现代会展经济观念,加大对会展扶持力度,建立市场化运行体制,提高会展层次,创立独具特色会展品牌,培养会展业
随着社会的进步,人们开始追求越来越高的生活水平,在建筑工程中提出了建筑物更为舒适的要求,而建筑行业正在适应这一要求,首先在建筑工程管理中进度管理的应用入手。保证建筑