基于生成式的自动文本摘要方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wangya110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本是一种从文本中提取重要信息,生成针对特定任务或者针对特定用户需要的精要版本的摘要表示方法。目前在文档摘要生成、新闻标题生成、以及复杂问题问答等方面得到了广泛的应用。生成式文本摘要模型需要通过对文本进行理解,将文本中重要的语义信息进行表达,从而生成摘要。由于机器不具备掌握语言知识的能力以及人的先验知识去理解完整的文档并生成能够强调文档重要观点或信息的摘要。因此,在实践中,实现生成式文本摘要方法是困难的并且充满挑战的。神经序列模型在神经机器翻译、对话系统领域得到广泛应用,同时也为实现生成式文本摘要提供了新思路。然而,基于序列的生成式文本摘要方法也面临着严重挑战:首先,基于该方法生成的文本摘要语义随机性较大,不能总是很好地反映出文中的重要信息。其次,文本摘要的内容表示与文本的类别信息密切相关,类别信息体现理解文本的角度,而该方法在理解文本时缺乏对类别信息的捕捉。最后,基于该方法的生成模型在强调文本观点时,自然语言生成能力弱,容易出现重复文本,语法错误,不流利等情况。本文拟基于基础的编码器-解码器模型,探索生成式自动文本摘要方法在强化文本观点和重要信息理解,增加生成摘要的信息蕴含程度,提升生成摘要可读性等问题的新方法,提出两种新的生成式文本摘要方法。具体地,本文研究工作主要包括以下两个方面:1)提出一种受多任务约束的基于生成对抗网络的生成式文本摘要方法。该方法设计了新颖的生成网络与判别网络。具体地,在生成网络内部,以多任务学习的方式联合文本分类任务与词性预测任务,使得生成网络在多任务约束下不仅能够通过分类任务强化对类别相关的文本信息的理解,同时在词性预测任务下强化语法约束。同时,生成网络与判别网络之间的博弈对抗,不断强化生成网络的生成能力。这样,模型生成的摘要信息捕捉能力强、语法准确且流利。2)提出一种融合外部语言模型的生成式文本摘要方法。该方法将外部语言模型的知识信息及语言信息融合进摘要模型自身的神经语言模型中,使得语言模型训练时能在外部语言模型的帮助下,专注于语义连接,从而解决了生成文本可读性的问题。实验结果表明,融合外部语言模型的生成式文本摘要方法所生成摘要在解决重复文本,增加语言流利性和提高语法准确性等方面上得到了大幅提升。
其他文献
期刊
目的:探讨矫形支具治疗对儿童青少年特发性脊柱侧弯的临床疗效。方法:25例特发性脊柱侧弯患者采用根据侧弯情况予以矫形支具治疗,疗程9-12月,对治疗前后患者Cobb’s角进行对
<正> 案情简介:福建某纺织公司委托私人包工负责人陈某加工制作、安装手推纱车和定型机上排气烟窗管道,并口头商定焊接组装手推纱车9部,每部加工费35元;定型机上排气烟窗管道
目的:研究和分析共情护理对抑郁症患者抑郁情绪及生活功能的改善作用。方法:选取笔者所在医院救治的抑郁症患者100例,根据患者的自愿原则分为实行常规护理的对照组和实行共情
本文主要了解幼儿在家的饮食行为现状,并对所获得数据进行整理分析,以发现幼儿在家饮食行为中存在的问题。经分析发现,中班幼儿在家就餐过程中存在较多的问题,本研究在综合分
传统媒体移动化、智能化的转型发展,引起人们新闻阅读习惯的变化。随着移动智能手机的广泛应用,促使人们产生阅读时间零散化、阅读场景移动化、阅读状态轻松化的媒介使用情况,本文应用自动文本摘要技术,实现新闻的“由长到短”,并根据用户需求调研进行社会新闻APP设计,满足用户信息即刻获取的需求。首先,进行基于自动文本摘要的社会新闻APP设计可行性分析,提出了适用于本设计的设计原则,即符合受众阅读特征的碎片化需
静脉输液是临床常用的基础护理操作,也是医院抢救病人的一个重要手段.为了提高穿刺成功率,减轻病人痛苦,笔者经过多年临床实践总结了几点经验,现报道如下.
通过作者自己的一些录音经验结合参考文献,从极端金属的录音中展开,简述吉他、贝斯、架子鼓和人声的录音及方法;其中也概述了数字音乐的发展,及软音源、音箱模拟器的优劣,阐
目的:分析HE染色技术在病理诊断中的应用,对其在诊断中的重要性进行探讨。方法:对1000例石蜡切片以及组织实施染色,对500例染色标本的细胞学进行观察,分析病理诊断中HE染色对
目的:观察护理干预在脑血栓患者临床护理中的应用效果。方法:按住院序号选取我院2011年12月~2012年12月期间收治的76例脑血栓患者,随机分为A、B两组。给予A组患者常规护理措