多源信息融合的生成式摘要研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hq520cyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,各类文本数据呈现爆炸式增长,信息过载问题日益严峻。面对海量的结构化文本(如知识图谱、软件代码)或非结构化文本(如新闻、社交媒体),如何快速、有效地从中获取关键信息并将其组织成精简连贯的语言表达形式变得尤为重要。作为缓解信息过载及提高信息获取效率的关键技术之一,自动技术旨在实现文本内容的自动提炼总结,以生成包含关键信息的语言描述。尽管现有主流的自动摘要方法在摘要任务中取得了较大进展,但仍然易存在如摘要内容偏离原文主题、重要信息缺失等问题。鉴于文本往往存在结构复杂、重要信息分布不均衡等情况,本文提出了基于多源信息融合的生成式摘要范式,通过挖掘利用文本的多源内外信息(如结构信息、关键词信息、上下文信息)来协同改善复杂文本的生成摘要质量。具体而言,本文一方面利用多源信息增强编码器对复杂文本的理解及表示能力,另一方面综合考虑不同信息与输入文本间的交互性以挖掘利用重要信息来引导解码器生成,使其能聚焦原文的重要主题。本文将多源信息融合的生成式摘要范式分别用于生成式结构化文本摘要和生成式非结构化文本摘要:(1)在面向结构化文本的摘要任务中(即代码摘要任务),提出了基于关键词引导的融合结构和上下文信息的生成式代码摘要模型(CodeSum),通过融合代码结构及代码上下文来增强编码器,通过关键词来引导解码器;(2)在面向非结构化文本的摘要任务中(即新闻摘要任务),提出了基于上下文信息融合的Transformer生成式新闻摘要模型(NewsSum),通过上下文信息增强编码器并引导解码器。在多个公开数据集上的系列实验结果表明,本文提出的多源信息融合的自动摘要范式及相应的融合摘要模型能较好地适应结构化文本及非结构化文本的自动需求,尤其多源信息的引入均有助于改善摘要的生成质量。
其他文献
在美丽乡村建设的大背景下,“农业+文化+旅游”的乡村经济发展模式得到普遍的认可,由于各地资源和条件的不同,规划设计需要具体情况具体分析。本文以探索凤羽在乡村建设道路上以绿色科学发展的方式为目的,关注“保护”与“开发”之间的问题,对凤羽镇三爷泉区域进行景观设计研究。论文首先阐述了景观生态学、低影响开发理论的概念,为指导景观空间规划设计提供了方法和途径。然后,介绍了历史名镇—云南大理凤羽镇的地理位置、
学位
媒介素养教育始于20世纪30年代,其目的是为了保护精英主义文化,抵御大众文化带来的不良影响。经过长期的发展,媒介素养教育理论经过了四次范式的变革,形成了参与式的文化内涵。我国媒介素养教育起于20世纪末期,引入了大量国外学者的研究成果,并以高校学者为主体进行了相应的实践探索,初步形成了媒介素养教育研究体系。进入21世纪,新兴媒介的快速发展改变了传统社会结构,形成了以“人—媒”关系为主导的现代生活方式
学位
目前在国际资本市场中分拆上市已经发展的较为成熟,但在国内资本市场中分拆上市的发展仍相对缓慢。2019年证监会发布的关于分拆上市的若干规定为我国企业分拆上市做出了更为明确的指引,也使分拆上市在国内资本市场受到了更多的关注。越来越多的企业开始了解或实行分拆上市,何时进行分拆成为这些企业关注的问题。究竟是哪些因素在影响企业分拆上市时机的选择,分拆上市时机选择又是如何影响企业经营绩效的呢?本文以Y集团分拆
学位
新一代信息技术的发展,促进教育决策由经验化逐渐向科学化转型。日常活动行为的数据,既是各类隐性规律的外显体现,同时也成为研究与发现特征的重要手段。例如,人们的活动轨迹大数据,在当今新冠肺炎席卷全球的严峻局势下,是揭示与及时跟踪去向,政府实施流调控制的重要信息源,它抗疫过程中担当着无可替代的重要角色。大学生在城市间、校园间的流动情况,在校园中的日常行为,也是值得重点关注的内容。在当今“内卷”横飞、疫情
学位
近年来,世界的经济高速发展,然而伴随经济增长而来的是环境的日益恶化,其中温室效应、全球变暖、沙尘暴等问题已在全球蔓延,成为人们重点关注的环境问题之一。我国在“十三五”规划中,明确提出了发展低碳经济模式,此后的“十四五”规划进一步提出坚决遏制高能耗、高排放项目盲目发展,推动绿色转型发展的要求。碳排放逐渐被社会所重视,而碳排放成本,也成为企业管理和核算的主要内容。目前火力发电企业属于碳排放的重点企业,
学位
随着新时代的不断进步,物质生活的不断丰富,人们对良好的生态环境的需求日趋激烈,越来越多的人向往着青山与绿水。近年来随着一系列生态保护和环境治理的利好政策出台,生态环保治理业势必会迎来新的发展机遇。随着生态环保治理业的不断发展,行业内的上市公司将会受到更多投资者的关注,但是行业上市公司鱼龙混杂,良莠不齐,投资者在面对众多生态环保治理业上市公司时就产生了许多问题,例如生态环保治理业上市公司的行业发展怎
学位
如何改进提升绩效考核指标体系,推动企业在日益残酷的市场竞争环境中取得领先优势,是当代企业关心的焦点。航空企业属于重资产、高风险行业,虽然近些年来行业一直保持增长趋势,但随着航空运输国际化,以及航空牌照获取政策打开,航空企业竞争日趋激烈。受新冠疫情的影响,国际大量航空公司消亡,国内航空依靠国内疫情迅速控制得以喘息,这既给国内航空公司发展带来挑战,也带来新的机会。如何在疫情之后迅速抢占市场,取得领先优
学位
随着深度学习技术的快速发展,以深度学习为基础的对话系统有望成为下一代人机交互的一种方式。其中的对话生成是对话系统中最重要的环节之一,也是最具有挑战性的研究问题之一。当前的主流对话系统大多基于序列到序列模型,此模型能够从海量训练数据中自动学习生成回复的逻辑,但是由于模型在生成时仅利用了输入语句中的有限信息,造成模型在生成时往往倾向于生成例如“对不起,我不知道。”这样的安全回复。因此学者们尝试引入外部
学位
在基于深度学习的计算机视觉研究中,为了更好的提升视觉效果,通常需要使用大规模的数据来学习训练网络模型。然而,大规模的数据都非常依赖大量的人力进行标注,因此花费非常昂贵。为了使得在标注样本数据不足的情况下也能训练出性能较好的网络模型,近年来,大量的方法被学者们提出。其中自监督学习就是通过大量无标注的样本数据进行自监督训练,来学习样本自身的数据特征的一种方法。针对具体实际问题往往通过迁移学习方法对网络
学位
为了解AMBBR一体化装置处理农村生活污水启动调试过程中脱氮除磷特性,以贵州兴仁周边农村生活污水为处理对象,采用接种闷曝法进行挂膜,研究该装置调试过程中水质变化。同时,将间歇曝气与连续曝气处理效果进行比较,分析设备运行过程中出现的问题并提出相应解决办法。由连续运行检测数据可知,农村生活污水经设备处理后COD、NH3-N、TN和TP分别可以稳定到40、7、10、0.54 mg/L左右。连续曝气和间歇
期刊