基于深度学习的长文本摘要生成技术的研究

来源 :辽宁大学 | 被引量 : 1次 | 上传用户:baalzio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会进入信息时代,互联网上的数据呈爆炸式的增长,数据量不仅庞大,而且数据维度过高,有效的解决信息过载并且从海量的数据中挖掘有用的信息变得至关重要。网络数据大部分以文本形式存在,因此文本摘要生成技术是人们从大量文本信息中快速获取价值信息的关键。近年来,生成式摘要技术越来越成熟,特别是基于序列到序列架构的自动摘要技术结合注意力机制框架,使生成的摘要取得了良好的效果,但在面对长文本时存在很多不足,第一,编码端采用单一特征的词向量输入形式,导致文本特征挖掘不足,进而影响神经网络模型对文本语义信息的提取。第二,在编码阶段,采用双向循环神经网络得到的前后信息仅进行简单拼接,文本序列过长会产生长距离依赖问题,无法有效挖掘上下文潜在语义信息,生成的摘要往往会缺失或偏离原文档核心信息。第三,在解码阶段利用注意力机制和神经网络的解码形式,生成的摘要存在语义不连贯和语义缺少问题,造成摘要生成的准确度较低。针对以上问题,本文提出了一种基于深度学习的长文本摘要生成模型,主要从特征词向量化,编码端和解码端三个方面做出了如下工作:1.构建了基于深度通信代理的编码模型。本文引入词的词频特征和语义特征,将特征词的TF-IDF值和潜在语义分析LSA获取的语义值通过朴素贝叶斯公式进行集成形成新的词向量。有效集成了文本多维特征,提升了词义理解能力,有助于编码器对文本信息的学习。针对传统循环神经网络对长文本编码能力不足和中间语义获取不准确问题,引入了深层代理通信机制,该结构的编码器能更加准确的获取全局信息,提高对文本的理解能力。2.构建了两阶段摘要生成模型。在解码端采用两阶段解码结构,利用注意力机制和单向神经网络LSTM生成中间文本语义,提出多代理指针网络计算解码词汇表的概率分布,生成摘要草稿,利用BERT细化摘要草稿序列,提高摘要语义的连贯性,引入多头注意机制,提高了解码端对源文档序列的记忆能力,解决摘要中词语重复问题,生成更自然的摘要序列,提高了摘要生成的质量。3.实验。在SNLI数据集上验证了词特征集成的有效性。在CNN/Daily Mail数据集上评估了本文的摘要生成模型,选择ROUGE-1,ROUGE-2,ROUGR-L,ROUGE-AVG四个指标进行摘要质量的自动评估,另外,也对生成的摘要进行了人工评测,实验结果表明,相比对比方法,本文摘要生成模型生成的摘要具有更高的准确度。
其他文献
本文通过对“一般性问题”类目的分析、论述“一般性问题”是一个非使用性类目。
目的 探讨臀部肌内注射深度与体重指数的相关性.方法 选择2011年1月至2013年7月间,在齐齐哈尔医学院附属第三医院门诊行臀大肌肌内注射的患者400例作为研究对象,记录两组患者
棉织物作为用量最大的天然纤维纺织品,具有服用性能良好、穿着舒适、染色性好等优点,广泛地应用于服装、家居、汽车、工业等各个领域。然而,棉织物属于易燃材料,它的易燃性对
导游人员的服务的质量高低,直接影响着一个旅游企业的形象,乃至一个地区、一个国家的旅游形象.就导游人员的职责和作用问题,对导游人员"游而不导"现象产生的原因、危害性及如
糖尿病高渗性昏迷是一种因严重的高血糖、高血钠、高渗透压所致的脱水但无酮症的综合征,病情危重,病死率高达40%~70%[1].我科收治6例糖尿病昏迷的患者,现将抢救与护理体会报告
对43例冠心病心绞痛患者冬、夏季不同气温下的血液流变学变化进行观察,同时以40例健康人作为对照,发现冠心病心绞痛患者冬季血液流变学异常进一步加重,提示寒凝致病具有血瘀证候的病
国际法上的个人究竟处于何种地位,理论界一直众说纷纭。但近代以来越来越多的人都逐渐接受个人可以成为国际法的主体的观点。本文主要从对人权的保护方面,分两个部分对个人的
真知灼见和愚昧无知仅一步之遥。所幸的是:知识迈进一步,愚昧就缩退一步。真正有洞透力的慧眼由知识凝成;真正具牢固性的美丽由知识塑就;真正能法制化的权力由知识支撑。人类社会
目的探讨产科病房护理中存在的风险及其护理方式。方法将我院产科施行风险管理制度之后2011年1月~2012年1月收治的89例产妇,将其作为研究组;另选择施行风险管理制度之前的96例
本论文的工作重点包括两部分的内容:第一部分是人的UBXD2蛋白UBX结构域的克隆,表达和纯化,并用液体核磁共振的方法解析了UBXD2 UBX结构域的溶液结构,并初步研究了UBXD2蛋白质