融合神经序列模型的自动文摘生成技术研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:slylzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和移动通信设施及技术的发展,推动了新媒体、社交网络、即时通讯等平台的广泛应用,带来了科技文献、新闻文本、博客、邮件、即时对话等文本信息喷井式增长,令社交网络媒体用户面临信息过载的困境。为帮助人们在短时间内快速阅读和获取信息咨询,筛选和识别文本关键信息,同时适应手机、平板及各类可穿戴式便携设备的有限阅读空间要求,为自动问答、信息检索等下游应用提供技术支持,自动文摘技术应运而生。自动文摘的目的是用计算机对长文本或文本集合进行自动压缩,以简洁、精炼的摘要文本来转述原文,其本质是对原文进行一种“降维”处理。近年来,基于深度学习的自动文摘方法取得长足发展,尤其是基于序列到序列框架的自动文摘模型为相关研究提供了广泛基础,但也存在对原文的概括性语义引入不足,和编码端对原文的理解受长度限制等技术问题。为此,本文研究并提出了融合神经序列模型的自动文摘方法。本文的主要工作如下:(1)为提升摘要措辞的准确度和摘要文本的连贯性,提出了一种融合多域注意力的摘要生成方法,通过增强原文与目标摘要词之间的相关性,提升生成摘要的ROUGE值。该方法认为文本含词、句两类语言要素,提出在编码端用双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)分别构建词、句编码器,从词、句两个视域对原文编码,分别建立词、句视域下的注意力并获得上下文向量,进而获得词典分布。在解码端使用指针生成网络和Coverage机制解决未登录词和生成词冗余问题,提高了生成的摘要对目标摘要的词覆盖度,提升了摘要文字的连贯性。(2)为改善摘要对原文关键信息的覆盖度,提出了一种融合文档编码的双编码方法,解决因编码端限制原文词序列长度,从而令摘要对原文关键信息覆盖不足的问题。基于前述工作(1),用Bi-LSTM与语言模型BERT分别构建词和文档编码器,对原文的局部与整体分别编码,获得基于局部的上下文向量与涵盖全文信息的文档向量。将两个向量以直接、门控、分层三种方式融合为上下文向量用于解码摘要。该方法在提升摘要准确性的基础上,也提升了摘要对原文关键信息的覆盖度。(3)在CNN/Daily Mail数据集上对本文方法进行了实验。工作(1)(2)中方法的ROUGE-1、ROUGE-2和ROUGE-L值分别提升至39.68%、17.60%、36.43%与40.03%、17.77%、36.73%,较其基线方法分别提升0.15、0.32、0.05与0.87、0.56、0.73个百分点。人工分析生成摘要的实例表明,本文方法生成的摘要具有较好的连贯性,摘要内容较好地体现了原文的主旨思想。
其他文献
随着大数据时代的到来,定制家居行业正在大范围的由传统制造型企业向数据信息化型企业转变,在转型的过程中遇到了各种各样的问题,其中数据质量问题就是比较突出的问题。A橱柜公司就是一个较为典型的案例,其业务量在近几年不断增长,然而却遇到了数据质量的难题:一方面希望数据能提升效率、提升价值,而另一方面却发现数据质量问题阻碍着公司业务的流转,即公司的订单数据上存在着问题,导致物料浪费、交期延长等,这些问题都会
学位
当前电子行业面临巨大的产品更新换代挑战,日益细分的市场需求,不断收缩的产品周期,都对新品研发项目提出日益苛刻的要求。H公司现有研发流程无法适应当前高效、低成本、变更频繁等特点的研发任务要求,需要在重视创新、经验积累和分享,加强项目流程优化保障项目顺利按时实施等方面进行改进和优化,结合行业特点和企业特色,走一条真正适用的研发流程优化之路,以保持良好的企业竞争力,实现永续经营的企业经营目标。本文对H公
学位
拜登政府上台后发布了《新冠应对和大流行防范的国家战略》《国家生物技术和生物制造倡议》和《国家生物防御战略和实施计划》等聚焦生物安全的系列文件和倡议,标志着生物安全战略已经上升为美国政府的重要政策议程。新冠肺炎疫情对美国造成了史无前例的生物安全危机,拜登政府通过调整国内生物安全治理机制、加大生物安全领域的投资和开展卫生外交三种路径来推行其生物安全战略。该战略呈现出“全社会”“伪多边主义”和“地缘政治
期刊
随着安全管理体系(SMS)在民航行业的全面推行,航空安全管理已经进入到事前管理、过程管理的阶段,因此准确、客观地衡量评价航空公司整体安全管理绩效水平,找出薄弱环节、提供改进方向,对航空公司安全管理改进有着重要意义。通过对航空安全管理理论和安全绩效评价现状进行研究,本文结合J航空公司实际情况,对J航空公司安全绩效评价现状问题进行了分析研究,基于航空安全管理体系及及行业要求,运用事故树分析法、安全管理
学位
目的:探讨减数分裂后分离蛋白2 (PMS2)表达对结肠癌SW480细胞生物学行为的影响,阐明PMS2与切除修复交叉互补组1 (ERCC1)和细胞外调节蛋白激酶(ERK)信号转导通路的关系。方法:将PMS2 siRNA质粒和PMS2过表达质粒分别转染入结肠癌SW480细胞(分别为PMS2敲减组和PMS2过表达组),同时设PMS2敲减对照组(siRNA-NC组)和PMS2过表达对照组(PMS2 con
期刊
昭觉凹陷上三叠统白果湾组是西昌盆地油气勘探的主要潜力层系之一,但目前尚处于勘探起步阶段,且未系统开展过生烃动力学研究,生烃能力、生烃规模及勘探潜力还不明确。为明确该区白果湾组泥页岩生烃动力学特征及油气勘探潜力,基于黄金管热模拟实验,取得了昭觉凹陷白果湾组泥页岩产烃率及动力学参数,建立了生烃模式,并估算了油气资源量。研究结果表明 :(1)实验条件下,白果湾组泥页岩生成的天然气主要为 C1,C2~ C
期刊
当代数字电影制作不再强调通过定位动作的精确时空关系来描绘动作发生的地理位置。相反,以“混乱”的手持摄影风格、极端的相机角度以及大量的数字合成素材为特征的“后连续性”美学被广泛引入。二维银幕上的后连续性美学呈现为快速剪辑的影像、多视角游移的镜头、纷繁多样的单人构图和特写镜头,体现了电影艺术对情动效果、具身经验和有限确定性等数字美学经验的追求。沉浸式影像的后连续性则体现为用户在三维虚拟影像空间中交互式
期刊
当前,我国经济发展已从高速度增长转换为高质量增长,深化供给侧结构改革实现新旧动能转换,提高供给端的质量是必然选择。适逢我国家族企业进入第一次代际传承的关键时期,企业面临代际传承和转型升级的双重挑战。为实现基业长青,家族企业继承人除了要做好战略选择,还需要有足够的资源实施战略。在此情景下,企业如何运用资产剥离,释放资源,发展核心业务,提高核心竞争力,实现转型升级,值得研究。本文以实物期权理论、资源优
学位
随着互联网的普及,即时通信、网络新闻、网上购物等活动产生了海量的短文本数据,其中包含大量与人们生产生活息息相关的信息,可以大幅度提高用户体验,具有极高的商业价值。但是网络短文本数据具有文本长度短、特征稀疏、噪声多等特点,粗粒度的文本分类任务已经具备成熟的模型与方法,但是更细粒度的方面情感分类任务依旧存在进一步提升的空间。本文针对短文本数据特征稀疏和噪声多等特点,提出使用深度强化学习来提取文本中与方
学位
近年来,受中概股做空潮的兴起、中美贸易战后中美关系的紧张、《外国公司问责法》的发布等因素影响,中概股发展前景充满不确定性。越来越多的中概股公司开始计划从海外资本市场退市,并实现在国内资本市场的重新上市。2015年以来,分众传媒、盛大游戏等知名中概股陆续成功从海外股票市场私有化退市并登陆国内资本市场,回归潮导致了资本市场炒“壳”之风盛行。2016年9月,证监会出台“史上最严”重组新规,对借壳上市通道
学位