基于自适应弹性损失的抽象式文本摘要生成方法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:xuxu517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,抽象式文本摘要模型比抽取式文本摘要模型更受青睐,因为其可以生成原始文本中不存在的单词,其摘要描述更加灵活和自然。基于序列到序列的抽象式文本摘要模型通过对原始文本和参考摘要之间的关系进行建模,从训练数据中学习摘要生成的模式。虽然基于序列到序列模型的抽象式文本摘要有着能够自由生成文本的优势,但是由于训练数据和现有模型均存在较高的不确定性,目前现有方法的摘要生成效果仍然不佳。其一是由于序列到序列模型高度依赖参考摘要的特点和训练数据的不确定性,这两者的共同作用可能对模型的性能带来损失。其二是序列到序列模型中常用的Softmax输出具有长尾效应,会使得输出正确单词的概率降低,从而容易使模型生成出呆板或者重复的摘要。为了解决上述问题,论文通过研究数据和模型在训练过程中的不确定性,设计了损失掩码和自适应稀疏分布两个方法。损失掩码方法利用参考摘要的抽象程度对损失进行加权,从而实现对训练数据的选择性学习。自适应稀疏分布则利用Sparsemax对模型的输出概率进行采样,以输出具有较高确定性的摘要内容。论文将这两种方法运用在了Pointer-Genertor Networks和Transformer模型上。在CNN-Daily Mail和LCSTS数据集上的实验结果表明,这两个方法提高了生成摘要的ROUGE分数。
其他文献
随着基础教育课程改革的不断推进,指向知识深度理解与迁移的项目式学习成为素养时代关注的焦点。新修订的高中课程标准中许多学科如语文、信息技术、地理等均提出要使用项目式学习;实践中,项目式学习也进入了越来越多的课堂。然而,传统的评价方式已无法满足项目式学习的评价需求,指向高阶思维与核心素养的表现性评价被认为是适合项目式学习的一种评价方式。如何设计项目式学习中的表现性评价是教师面临的一大挑战。本研究基于已
学位
笑是一种基本的社会文化现象。尽管已有丰富的研究探究机构互动中的笑,对课堂上的笑的研究仍处于课堂互动研究的边缘地位。科学本身的严肃性,使得科学课堂上的笑声尤为独特,而国内目前尚无这方面的研究。本文基于社会建构主义理论,采用基于视频的互动分析法,以上海某学校六年级科学课堂长达61小时的视频录像为主要分析材料,从中选取66个笑声互动片段进行多模态会话分析,探究科学课堂笑声发生的情境、师生参与的方式以及笑
学位
随着互联网和新闻媒体的发展,众多信息发布网站层出不穷,网站内容监管的重要性也与日俱增。由于互联网的便利性,舆论传播和发酵的速度极快,依靠人力监控很难在第一时间发现问题。现有的敏感词检测方案也多是在网站发布内容时检测其中的敏感词,但敏感词会随着时事而变化,内容发布时的检测已无法满足舆情监控的需求。因此,必须通过自动灵活的网站敏感词监测系统来对网络舆情进行监测和处理,从而保障网络安全和社会稳定。基于上
学位
呼吸系统疾病是一类常发性疾病,其致死风险在城乡均排名前列。探究影响该类疾病发病因素,降低其死亡率已成为近些年的研究重点,但在诸多研究当中,包含时空效应分析的研究较少。本文使用广州市2016-2019年呼吸系统疾病门诊数据与51个环境监测站获得的大气污染物数据,研究该地区呼吸疾病死亡病例与环境因子的关系,同时考量时空随机效应的影响,最终实现疾病制图。模型拟合基于贝叶斯框架,并使用INLA算法进行参数
学位
PageRank算法是一种计算图网络数据中节点重要性的算法,通过入链节点的重要性和入链节点的数目来计算每个节点重要性,可以广泛应用于搜索引擎推荐、社交网络人群重要性排序以及文献作者排序等实际问题中。但在实际问题中,由于图网络结构的拓扑结构,同一节点对不同节点的重要性贡献是不同的,这时使用原始的PageRank算法计算网络中节点重要性不够准确,而基于无向结构的PageRank算法虽然可以改变计算过程
学位
随着互联网行业的高速发展和物质生活的极大丰富,国内外涌现出大量的互联网电商平台。持续膨胀的数据量以及日益复杂的业务场景,对支撑电商平台的基础架构的性能和稳定性提出了重大考验。在保证系统性能和稳定的同时科学地控制运营成本是管理者关注的重要方面。本文通过对基于微服务及云原生架构的互联网电商平台的业务特点和Kubernetes集群的负载指标进行分析,指出了存在的资源浪费和服务抖动问题:负载指标变化规律与
学位
聋哑残疾的患病人数是中国五大残疾人数之首。据统计,截止2020年中国有2780多万的聋哑人。因聋哑人群体语言听觉能力的缺失导致与他人沟通困难,给工作生活带来了诸多不便,产生许多社会问题。针对聋哑人沟通的难题,研究人员做了大量的基于手语、文字等方面的研究,并在手语和文字的翻译效率、准确性等方面有了非常大的进展。然而,手语翻译方案存在使用广泛性不够,标准繁多,价格昂贵等问题。实时文字翻译方案交互效率低
学位
随着嵌入式系统结构和交互的日益复杂以及软件在嵌入式系统应用比重的增加,如何保障复杂嵌入式系统的高安全性和高可靠性逐渐成为了现今的挑战。目前,传统系统安全分析方法如故障模式及影响分析(FMEA)、故障树分析(FTA)、可靠性框图(RBD),已广泛运用于学术界和工业界。但是面对系统的高度集成化、复杂化、软件密集化的发展趋势,传统的系统安全分析过程往往难以应对。在常规的安全分析过程中,安全工程师通常使用
学位
近年来,随着教育和信息化技术的融合,在线教育呈现蓬勃发展趋势,在线试题数量大规模激增。如何高效组织和管理这些试题资源,有效实现试题推荐、快速组卷、自适应测试等智能化过程,逐渐成为该领域的研究重点。试题知识点的自动标注是管理题库数据、提高教育自动化和智能化的基础所在,其本质是文本的多标签分类。目前,针对数学试题的知识点自动标注研究还很少,相较于普通文本,数学文本因为包含符号、公式等特殊元素,具有更加
学位
近年来,边缘网络流量的空前增长,以及新型应用对服务体验质量(Qo E)的更高要求,对通信网络的数据通信质量(如带宽、时延、吞吐量)提出了新的标准和挑战。缓存通过将一部分数据存储在边缘网络节点,成为一种缓解这些问题的有效方法。为此,各种各样的缓存方案被提出,但是,这些方案要么因为缺乏自我学习能力和自我决策能力而不够智能,要么缓存命中率不够高而不够有效。基于这些观察,本文提出了一种新的基于深度强化学习
学位