基于深度特征提取的句子分类模型研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:majk509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,海量的文本信息正在不断涌现,这些信息在新闻资讯、电子商务、舆情监测等场景具有重要的价值。分类是对文本信息有效利用并解决上述实际场景需求的重要技术手段,而这些文本信息作为分类对象往往以单个语句或若干个词语拼接成的短句的形式出现,因此构建一个具有良好性能的句子分类模型是尤为关键的。句子分类的研究具有重要的应用价值。由于句子普遍具有长度短、新词多、重复成分少等特点,基于统计学习思想的句子分类方法往往需要耗费大量精力针对具体分类任务中句子的特点进行特征提取和选择,同时对于新的分类场景,需要重新构建特征,普适性较差。这些缺点在一定程度上限制了此类方法在句子分类问题中的应用。深度学习在自然语言处理领域的应用推动了句子分类问题的研究,近年来的研究表明,卷积神经网络能够通过词向量有效地应用在句子分类问题中。用于句子分类的卷积神经网络虽然能够提取句子中的局部特征,但忽视了在具体分类任务下,句子中不同的词语对分类结果的重要性有所不同,同时不同部分的词语间往往存在关联信息,此外,每个词对应的词向量表示受限于单一词向量训练方法,以上方面均影响最终提取的用于分类的句子特征。本文针对上述存在的问题进行了深入研究,主要内容如下:1)提出基于强化语义特征提取的卷积循环神经网络句子分类模型。该模型首先通过选取训练集每个类别中重要的词序列构造带有语义特征的卷积核,强化句子中对分类结果重要的词序列的语义特征提取,然后通过对词向量矩阵的卷积和局部池化提取句子的局部特征并保留句子的序列性,之后将局部特征作为循环神经网络的输入获取句子中的长距离依赖信息得到句子全局特征表示,最后通过全连接层和Softmax函数得到分类结果。模型强化了语义特征的提取能力,同时结合了卷积神经网络和循环神经网络的优势。2)提出基于强化语义特征提取的双路神经网络句子分类模型。针对句子中每个词对应的词向量表示受限于单一词向量训练方法的问题,在强化语义特征提取的基础上,以不同训练方法得到的词向量同时作为输入,构建双路卷积循环神经网络句子分类模型,并提出双路卷积神经网络句子分类模型作为对比,有效利用了不同种类的词向量得到更加丰富的句子特征。本文在多个公开数据集上对所提出的模型进行实验,并与多个已有的用于句子分类的模型进行对比。实验结果表明,本文所提出的模型在句子级情感分类和问题分类等不同的分类任务中具有良好的效果。
其他文献
网络空间安全作为教育部在2015年新增的一级学科,覆盖范围广,具有很强的专业性、广泛性和实践性。文章根据网络空间安全学科特点,以培养具有网络安全体系化能力人才为目标,提出了
阐述了梨树县水资源的现状,分析了农业缺水的原因,并提出了农业用水的对策,以实现农业的正常生产。
在教学中.教师要关注每一个学生的发展.尤其是对于中等生和后进生更应该“蹲”下来,用赏识的眼光来看他们,让他们健康地成长。
犬猫外科手术常需作全身浅,中度麻醉,在多种全身麻醉药中,氯胺酮使用方便,效果可靠,其优点突出表现为:(1)麻醉快。缓慢静注在0.5分钟内就可以让动物处于全身麻醉状态,马上可进行手术。
摘要适时推进水产业规模化经营,对推进水产业国际化进程具有积极意义。指出要把握时机,因势利导,适时推进水产业规模化经营;消除误区,更新观念,积极引导规模化经营;因地制宜,突出重点,率先突破规模化经营。  关键词水产业;规模化经营;适时推进  中图分类号 F307.4 文献标识码A文章编号 1007-5739(2009)06-0209-01    农业生产和社会经济发展的实践表明,我国水产业经济,特别
随着计算机技术的迅速发展和互联网应用的日益广泛,计算机的网络资源共享能力进一步加强,这大大的方便了人们的学习和生活。但是,带来的一个问题就是计算机网络安全问题日益成为
齐墩果酸和芦丁作为一种天然来源的药物,被病人服用后,将不可避免地与动物和人体内的消化酶发生作用,因此我们研究了齐墩果酸对胃蛋白酶部分酶学性质的影响。本文首先研究了齐墩
采用Maflab作为开发工具,结合Web技术及其相应功能,设计并实现了信号与系统自主学习系统。该系统涵盖了信号与系统课程教学中的所有重难点,包括信号的发生、信号分析、系统分析
一、前言图1所示的产品系江西省吉安红声器材厂1988年设计SD-1/2型动圈式受话器中一关键部件,我厂配合研制生产,但由于该产品磁性能高,尺寸较小,湿压异性给成型造成较大困难,
随着社会经济体制的发展,轨道交通以其自身能耗小、节约空间、单位运输量大的特点,一跃成为当今最为主要的运输方式。同时政府已经逐渐的将利好政策转向轨道交通,未来一段时