【摘 要】
:
随着互联网技术的快速发展,每天都会产生海量的文本数据。文本分类作为自然语言处理和网络信息挖掘的基础,在文本信息处理中有着重要地位。人工文本分类方法和传统的机器学习文本分类方法难以满足目前对文本分类效率和精度的要求。随着深度学习在自然语言处理中的应用,深度学习方法为文本分类问题提供了新的解决途径。本文在研究总结文本向量表示技术和深度学习模型卷积神经网络原理的基础上,对运用卷积神经网络模型解决文本分类
论文部分内容阅读
随着互联网技术的快速发展,每天都会产生海量的文本数据。文本分类作为自然语言处理和网络信息挖掘的基础,在文本信息处理中有着重要地位。人工文本分类方法和传统的机器学习文本分类方法难以满足目前对文本分类效率和精度的要求。随着深度学习在自然语言处理中的应用,深度学习方法为文本分类问题提供了新的解决途径。本文在研究总结文本向量表示技术和深度学习模型卷积神经网络原理的基础上,对运用卷积神经网络模型解决文本分类问题做了深入的研究。针对文本分类中数据稀疏编码维度高、携带信息少的问题,使用分布式词向量表示方法将文本数据映射到低维向量空间获得语法语义丰富的词向量表示。针对预训练词向量产生的样本噪声问题,通过自训练词向量进行袋外词替换有效减少分类样本噪声。针对卷积神经网络适用于提取局部特征,难以提取文本特征之间的非局部关系和语义信息的问题,对卷积神经网络进行了合理改进:将普通卷积结构和self Attention机制结合构建Attention CNN结构,其中普通卷积结构用于获取特征局部状态,Attention机制获取特征全局状态,为模型提取语句级分类特征提供保障。在上述Attention CNN结构的基础上构建了可用于多任务的A-CNN文本分类模型,并使用监督方法预训练模型参数。最后,通过实验验证了Attention CNN结构的有效性,并使用A-CNN模型分别在情感分析、问题分类和问题答案选择等任务数据集上进行了实验和对比分析。实验结果表明,A-CNN模型在上述三个文本分类任务中比参与对比模型的最高精度分别提高了1.9%、4.3%、2.1%;A-CNN模型适用于多种文本分类任务,具有较高分类的精度和较强的通用性。
其他文献
在深海石油勘探作业过程中,路线优化对提高生产效率,降低生产成本起着攸关重要的作用。深海石油勘探路线优化可以归纳为求解旅行商问题的一个特例,对于旅行商问题,已经有众多学者研究并提出了多种优化算法,其中智能优化算法由于具有原理简单,易于建模,解算速度快等优点,在实际应用中得到广泛应用,故此本文采用智能优化算法对深海石油勘探进行路线优化。本文首先对遗传算法、蚁群算法、模拟退火算法、粒子群算法和禁忌搜索算
汽油等轻质油品在储存、运输的过程中不可避免地会发生挥发,挥发的油气不仅会造成能源的浪费,而且还会对环境、健康和安全造成极大的危害。因此,有必要大力发展油气回收技术减少对环境、健康和安全造成的危害。本文以石化行业储油库、加油站、炼化厂中的成品油的储运为背景,以油气排放处理系统项目为主题,对油气排放处理自动控制系统进行了研究,在本文中主要进行了以下的设计和研究工作。(1)研究和设计了油气回收装置的工艺
天然气水合物作为一种有广阔发展前景的新型非常规能源,能量密度高、可采规模大、分布范围广,被称为“二十一世纪最清洁的能源”。我国的天然气水合物资源总量极其丰富,作为重要的战略资源,天然气水合物开发前景广泛。因此,对高分辨率天然气水合物物探传感器进行设计与研究对天然气水合物的资源利用具有十分重大的意义和价值。金属氧化物半导体式气体传感器与其它类型气体传感器相比,具有灵敏度高、响应-恢复时间快、制备工艺
脉冲中子元素测井是一种利用脉冲中子源产生的快中子进入地层,通过测量中子与地层元素原子核作用放出的伽马射线,得到元素含量进而确定矿物含量的先进核测井技术,广泛应用于复杂储层岩性识别、非常规储层评价等方面。CNET是中国石油大学(华东)自主研发设计的一支三探测器多功能脉冲中子能谱测井仪,上一代采集系统采用传统模拟核能谱测量方式,存在着系统死时间较长、系统分辨率较低等问题。本文将数字多道脉冲幅度分析理论
柔性装置广泛存在于存储器的磁头、机器人的手臂、内燃机的传动轴等日常生活和工业领域,柔性装置的负载转速变化容易引起传动轴的疲劳、振动等,不仅影响设备的工作效率还会增加安全隐患。本课题将柔性系统简化为三质量扭转系统,分析和建立自抗扰控制器,利用自抗扰控制器对三质量扭转系统进行速度控制,从而抑制三质量扭转系统在转动过程中扰动和速度振荡等问题。本文首先对自抗扰控制器的跟踪微分器、扩张状态观测器、非线性误差
有杆抽油系统是石油工业中最主要的提液方式,普通钢制抽油杆由于自重大、能耗高、活塞效应严重、不耐腐蚀而失效越来越频繁,不能满足油田的生产要求,而碳纤维抽油杆所具有的高强度、低密度、耐腐蚀等优点使其在油气生产中发挥越来越重要的作用。如何准确掌握抽油系统的工作状况并有效地进行故障诊断和预测对提高油田的效益和产能有重要的作用,也是碳纤维杆抽油系统研究与应用中的关键问题。示功图中包含丰富的信息,通过测试和分
由于工业自动化的需要,机械手被越来越广泛的应用于机械制造,冶金等领域。与此同时,传统机械手的各种缺点也暴露了出来,其柔顺性、交互性和安全性较差,导致了其在外形多变、易碎的物体抓取,残疾人康复辅助装置的应用当中都具有一定的局限性,从而限制了机械手的应用。针对传统机械手的上述缺点,本文研究了摩擦增强型软体机械手,该软体机械手柔顺性好,交互性和安全性高,并且其上还附有仿生纳米纤维阵列薄膜,从而具有更强的
大数据时代的到来以及深度学习的兴起使得图像描述成为了人工智能热门研究方向。传统的方法虽然在某种程度上能够完成基本的描述任务,但是在准确度丰富度上还存在一些不足。此外,它们只是利用了单一的图像属性或者图像的视觉特征,对于它们之间的关联性以及不同模态特征之间的互补性并没有进行详细的研究。为此,本文提出了两种图像描述的改进方法。一是基于视觉注意力与用户注意力社交图像描述方法。该方法意在利用社交图像中用户
本文着重研究了基于递归神经网络模型的共轭梯度法与广义Armijo搜索技术相结合的算法:第一章简要介绍了共轭梯度法的发展现状、神经网络的相关背景知识,并且总结了基于递归神经网络模型的算法研究现状.第二章基于Elman模型,结合广义Armijo搜索技术,设计了一种新的共轭梯度算法.该算法修正了RMFI共轭梯度算法,更新了共轭参数,使得新算法每次都能产生一个充分下降的搜索方向.此外,本章证明了基于Elm
人工神经网络在信号预测、函数逼近、自动控制以及模式识别等领域都具有广泛的应用,具有万能逼近能力的单隐层前馈神经网络是神经网络研究的重点。基于最速下降法的反向传播算法是训练单隐层前馈神经网络的流行算法之一,但它有收敛速度慢、耗时较长等缺点。基于存储量小和收敛速度快等优点,共轭梯度法目前已经成为训练神经网络的一种有效算法。结合单隐层实值前馈神经网络模型,近年来有研究者提出了基于共轭梯度法的实值神经网络