基于嵌套LSTM的中文新闻文本分类研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:suzengbiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域中十分重要的研究任务之一,随着互联网技术的发展,文本分类在各种应用系统中扮演着至关重要的角色。而中文新闻文本的特点严重影响着分类任务的结果,其特点包括:文本句子由各种短语组成,对这些短语结构的特征提取有助于学习文本的特征表示,从而提高分类准确率;中文新闻文本篇幅较长、内容多,为了提高文本特征表示对原始文本蕴含意义的表达能力,要求分类模型能充分学习长文本的上下文依赖关系;文本中通常含有大量与主题无关的冗余信息对分类过程造成干扰,为有效减少这种干扰情况,分类模型应尽可能为重要信息分配更多注意力。因此,针对以上特征,本文提出了两个用于中文新闻文本分类的深度学习模型:1)本文结合CNN和NLSTM模型的特点,提出基于注意力CNLSTM的中文新闻文本分类模型。该模型利用卷积神经网络提取文本的短语特征序列,将原本基于词语的模型扩展为基于短语的模型;由于嵌套LSTM比普通LSTM能够访问更长时间尺度的历史信息,因此将得到的短语特征输入嵌套LSTM模型以提取整个文本的特征表示;为了突出文本重点内容,该模型引入注意力机制计算各短语特征对整个文本类别的影响程度,生成含有注意力分布的文本特征表示。最后使用Softmax分类器进行分类。通过实验证明了该模型的有效性,利用该模型不但能捕捉句子局部特征,还能充分考虑文本上下文语义信息,从而提取更为合理的文本特征,且注意力机制的使用使得模型有效避免了长文本输入中冗余信息对输出类别的不合理影响。2)对基于注意力的CNLSTM模型进行改进,提出基于增强学习的改进模型。CNLSTM模型采用固定大小的卷积核提取短语信息,而实际上中文文本结构复杂,通常包含的短语长度是随机的、变化的,并且使用CNN提取特征时滑动步长通常设置为1,使得获得的短语特征序列中含有较多重复信息。因此提出利用增强学习方法代替CNN结构,使得模型能够在训练过程中自主地识别文本的短语结构。该模型首先利用随机策略梯度算法学习文本词语对应的动作,接着通过一个分级NLSTM模型学习基于短语结构的文本特征表示。同样,为了使得模型更加关注与新闻主题相关的内容,也在该模型中引入注意力机制。通过设计对比试验,证明了该模型的分类效果优于CNLSTM模型。
其他文献
现代密码学包括对称密码和非对称(公钥)密码两种体制,对称密码又进一步分为分组密码、流密码、杂凑算法等。流密码主要针对单一比特或者字进行加密,其优点是加解密速度快,多数面向硬件设计,在军事、无线网络、蓝牙、手机通信、RFID(Radio Frequency Identification,射频识别)等应用场景中应用广泛。密码分析技术一直是密码学的核心问题之一,对于流密码的主要分析方法,本质上可以将其规
随着网络通信技术的进步,以太网技术也得以蓬勃发展,已经在局域网、城域网、广域网等方面获得了广泛应用。从上世纪80年代的10Mbps以太网技术到如今光纤以太网技术,在短短几十年时间,以太网技术的发展十分迅速,这都得益于以太网相关芯片设计技术和工艺水平的进步。为适应以太网技术快速发展,以太网物理层芯片新的种类不断涌现,在性能方面要求也越来越高。锁相环电路是以太网物理层芯片的重要组成部分,一个性能好的锁
房地产业是我国当前国民经济的基础产业和重要支柱产业,保持房地产业的健康发展对于维持宏观经济稳定具有重要意义。房地产业的快速发展既能够带动整个社会宏观经济的发展,也可能引发一系列民生问题。因此,对于房地产泡沫测度以及形成原因的研究将有助于房地产市场平稳健康发展。以往文献大多以全国或者特大型城市的房地产市场为研究对象,对于以省域宏观经济发展现状为背景的房地产市场研究较为匮乏,因此本文以安徽省房地产市场
学位
山水元素,是以自然形态出现的,是我国传统艺术元素之一,长久以来,山水元素在陶瓷装饰上大多以传统的表现形式出现,随着陶瓷创作理念的转变,陶瓷装饰创作不再局限于传统的形式和表现手法,本设计将山水元素运用现代装饰手法,与陶瓷设计相结合,给观者展现出一个山水悠然、怡然自得的意境。本课题主要分为五个部分,第一章引言部分,对选题的背景、目的及意义进行叙述;第二章资料收集与分析,对山水元素意境、用笔、设色及在陶
自然语言处理的目标,是让计算机能够在理解文本内在含义的基础上处理文本。机器阅读理解是指机器根据给出的文章内容,回答提出的问题,跟人类的阅读理解测试类似。近年来,随着深度学习的发展和人工智能的兴起,作为自然语言处理领域智能化的代表,机器阅读理解受到了工业界和国内外学者的广泛关注。中文机器阅读理解因为起步较晚,发展滞后于国外。CMRC 2018数据集的出现,填补了中文片段抽取型机器阅读理解数据集的空白
社会化媒体是一种新型的网络媒体,主要目的便是鼓励用户多与其他用户交流,增加人们之间的沟通和联系。随着众多社交网络的兴起,越来越多的民众被这些社会化网络以一种网络的
高校学生党建工作进社区是新时代下高校党建工作的积极探索和创新发展。随着高校后勤改革和高等教育体制改革,学生社区成为集学生学习、生活和学校教育、管理、服务于一体的特殊区域。新时代要求党的基层组织提高做思想政治工作能力,高校学生党建工作进社区是遵循党的建设规律、思想政治工作规律、学生成长规律,丰富高校党建工作内涵、促进大学生全面成长成才的有效途径。本文在对高校学生党建工作进社区内涵梳理的基础上,以浙江
近年来,上假肢行业蓬勃发展。究其原因主要是上假肢潜在消费群体的增加。一方面由于人口老龄化问题的加剧,老年群体对上假肢的需求量很大。另一方面,由于社会发展较快,工业事故、交通事故以及自然灾害的频发,残疾人群体的人数增长迅速,该群体中越来越多的人迫切需要上假肢的协助来完成日常生理活动。本文中主要是针对一种上假肢的控制机理和控制系统进行了研究。在控制机理上,首先,根据上假肢的机械结构特点,使用DH建模方
桥梁快速预制拼装技术具有现场作业时间短、施工效率高以及对周边环境影响小等优点,是当前桥梁施工的发展方向和研究热点。在桥梁预制拼装技术中,各预制构件之间的连接方式与可靠性能是关键问题。本课题组提出一种施工速度快、可靠性强的“预留灌浆孔连接”新方式,并通过拉拔试验获得了其抗拉性能和最小锚固长度,但其抗震性能尚未研究。本文采用拟静力试验和有限元分析对其抗震性能进行研究,为该连接方式的工程应用提供试验依据
学位
移动机器人在未知环境下的自主定位与导航技术是近年来的研究热门,本课题针对移动机器人采用视觉传感器完成定位和用于消除定位过程中累积误差的回环检测问题进行研究,并对机器人的点到点路径规划问题以及多机器人路径规划问题进行分析,具体内容如下:首先,针对移动机器人的视觉定位技术,采用基于特征法的视觉里程计设计方法,在该方法的特征提取与描述环节分别采用ORB、SURF、SIFT三种算法,对基于这三种算法的视觉