【摘 要】
:
随着智能时代的飞速发展,人类丰富的社会行为产生了海量数据,网络新闻、评论等文本数据呈爆炸式增长,如何高效地从这些数据中提炼出关键信息以满足用户需求是亟待解决的难题。为解决上述问题,文本摘要技术应运而生,其主要对文本的语义信息进行建模,通过压缩冗余信息、提炼关键信息或借助自然语言生成方法来得到冗长文本对应的摘要。现有多数文本摘要研究主要关注单语言情境(以英语文本为主)的文本摘要任务,基于该任务构建了
【基金项目】
:
国家自然科学基金面上项目“面向跨语言观点摘要的领域知识表示与融合模型研究”(项目编号:71974202)的研究成果之一;
论文部分内容阅读
随着智能时代的飞速发展,人类丰富的社会行为产生了海量数据,网络新闻、评论等文本数据呈爆炸式增长,如何高效地从这些数据中提炼出关键信息以满足用户需求是亟待解决的难题。为解决上述问题,文本摘要技术应运而生,其主要对文本的语义信息进行建模,通过压缩冗余信息、提炼关键信息或借助自然语言生成方法来得到冗长文本对应的摘要。现有多数文本摘要研究主要关注单语言情境(以英语文本为主)的文本摘要任务,基于该任务构建了多种不同的摘要模型,尽管现有研究取得了良好效果,但仍存在以下不足:第一,很少有研究全面探究基于深度学习的方法在文本摘要任务上的性能差异;第二,当前的文本摘要研究主要针对单语言任务,跨语言文本摘要任务研究相对较少,摘要和源文档为相同语言的限制无法满足全球化环境下的语言迁移需求;第三,现有的大多数观点摘要研究的目标都是生成通用的摘要语句,即直接提取源文档中包含情感倾向的重要信息,然而面向用户查询的观点摘要能够根据不同需求,从语料中提取更精准有用的摘要语句,实用性更高。针对上述三个不足之处,本文从以下三方面开展工作:1.针对现有研究很少全面探究基于深度学习的模型在摘要任务上的性能差异这一问题,本文开展面向文本摘要的深度学习模型对比研究,分别探究基于传统序列到序列的模型和基于预训练的模型在英语数据集上的性能差异。基于序列到序列的模型主要采用Seq2Seq模型实现,该模型由编码器和解码器两部分构成,基于Seq2Seq的结构可以构建抽取式和抽象式模型。基于预训练的摘要模型主要使用BERT及其系列变体来实现。在英语数据集CNN/Dailymail数据集上应用上述方法,探究两类不同的摘要模型在实现抽取式和抽象式摘要时的差异。实验结果表明抽象式摘要模型倾向于得到优于抽取式模型的效果,在基于Seq2Seq的模型中,将拷贝机制与覆盖机制相结合的模型性能最好,而在基于BERT的模型中,MASS模型能够取得最好效果。2.针对现有研究局限于单语言文本摘要任务的问题,本文探究跨语言情境下的摘要任务,在上述的单语言研究基础上融合多任务思想,从而构建跨语言文本摘要模型。具体地,将跨语言摘要任务分别与机器翻译和单语言文本摘要任务结合构建两种不同的跨语言文本摘要模型。其中,单语言摘要任务能够促使模型学习源文档的语义信息,而机器翻译任务则可以帮助模型更好地解决不同语言之间的语义鸿沟问题。将本文构建的模型应用到ZH-EN(中文源文档-英文摘要)数据中,实验结果表明本文构建的融合多任务思想的两种跨语言方法效果均优于单一的跨语言摘要模型,其中融合单语言摘要任务的方法效果最佳,其ROUGE分数分别为19.75%、8.54%和17.38%,该分数优于基线方法。3.针对现有观点摘要研究大多生成通用式摘要,无法满足特定用户需求这一问题,本文将跨语言文本摘要任务进一步扩展为跨语言情境下面向查询的观点摘要任务,开展研究。基于此任务,构建面向查询的跨语言观点摘要模型,以满足给定目标语言用户查询,模型基于源语言文档生成与用户查询相关且包含情感倾向的目标语言观点摘要。本文通过融合跨语言词表示、摘要抽取和跨语言转换三个模块构建模型,并将该模型应用到以Debatepedia为来源的数据中进行实证分析,其ROUGE-1、ROUGE-2和ROUGE-L分数分别为22.07%、2.76%和17.59%,证明了该摘要框架的有效性。通过开展上述研究,本文对基于深度学习的两类文本摘要模型Seq2Seq模型和预训练模型在单语言摘要任务上的性能进行了全面探究。同时,本文将单语言摘要任务扩展到跨语言情境,在单语言摘要模型上融合多任务思想构建了性能良好的跨语言模型。此外,本文充分考虑观点摘要任务的现实应用场景,将用户查询和语言跨度融入该任务中,构建了通用的面向查询的跨语言观点摘要框架,以期为后续研究提供一定的借鉴。
其他文献
随着国家工业、经济的迅速发展,对电力能源的需求不断增加,对电能的依赖性也不断增强。由于大批的分布式电源和可再生能源并网,增加了电力系统运作和调整的复杂性和不确定性。对于短期电力负荷预测,预测的不确定性每减少1%可为峰值为1GW的电力公司每年节省约30万美元。随着电力体系的进一步发展,对模型预测精度提出了更高的要求。如果能够给出区间预测结果,则可使电力系统决策人员更好地了解未来负荷的变化波动范围,在
我国现有尾矿库数量大,病库、危库多,潜在风险巨大。此外,受矿产需求量增加、矿石品位降低、暴雨极端天气发生频率增加等因素影响,尾矿库安全风险呈增长态势。一旦失事容易造成重大人员伤亡、巨额财产损失和严重的环境污染。因此,对尾矿库风险进行安全预警有着重要的理论意义和现实意义。但现行尾矿库监测系统通常依据浸润线、干滩距离、坝体位移等指标的具体量值进行单因素预警,缺少多因素协同作用预警,进而导致风险判定的精
伴随着互联网技术的高速发展和社交媒体的广泛流行,越来越多的用户突破限制,利用移动网络随时随地进行信息交互。大量用户从被动接受信息,变成主动参与视频内容创作和传播的重要角色。高速率和低时延的5G移动网络,让网络信息的内容更加丰富、传播更加迅速,受众也更加广泛。这意味着拥有丰富的信息和便捷的传播方式的网络视频,很可能成为未来新闻生产和传播的主要模式,这将颠覆传统的事件挖掘模式。现实中,当普通用户想要了
当前,随着我国金融市场日益繁荣,银行在我国金融体系中处于中流砥柱的位置,它在经济调节、货币流通、投资融资等渠道发生着至关重要的作用,使得银行业在我国市场经济体系中饰演着不可或缺的角色。随着经济全球化的到来,资本的流动性在不断地加剧,给商业银行带来机遇的同时,也迫使其面临极大的挑战。2019年5月24日,由于包商银行出现严重信用风险被中国人民银行实行接管。此次包商银行事件具有特殊性,但也同时也为我国
全球大约2千万公顷的土地被发现遭受污染,且其中超50%被重金属污染。土壤重金属可以经口、呼吸、皮肤接触等途径直接进入人体,也可以通过生物富集作用进入食物链,间接进入人体。人体摄入过量的重金属可能会导致多种健康问题。环境健康风险评价作为一种风险决策工具,可以对上述四种暴露途径造成的健康风险进行定量评估。通过文献综述,已有研究大多关注矿山或者单一工业园附近土地的重金属污染及其造成的健康风险,但是对于城
随着国内外经济高速发展,人们的消费观念也在发生变化,越来越多人享受着“超前消费”带来的便利,借贷消费也越来越常见,如通过贷款来买房、买车、缴纳学费及日常消费等。消费方式和消费观念的改变让个人借贷的规模迅速扩大。与传统的银行贷款模式不同,互联网金融模式下的信用贷款能够帮助更多普通中低收入人群快速申请贷款,更加便利,但是这些机构也因此承担了更大的客户违约风险。有效且准确地对个人信用进行评估能够提早发现
近年来,中国量化投资领域因其稳健的投资业绩而受到资本市场的关注。伴随着我国资本市场衍生工具不断的丰富和相关法律法规的成熟完善,基于计算机技术的量化投资领域因其高效的数据处理能力以及非人工化等技术特征得到市场认可,迅速发展,并在资本市场获得稳健的投资回报。国内量化产品市场规模的不断扩大,量化投资作为一门专业的学科逐渐出现在券商和学者的视野中,在金融工程领域成为主要研究方向。股票价格的涨跌受到多种因素
在“一带一路”倡议提出,以及我国实施创新驱动发展这两种国家的重大战略背景下,区域创新能力已经成为促进国家经济增长和提升核心竞争力的关键,是新常态下我国经济实现顺利转型升级的必然要求。本文聚焦于“一带一路”倡议国内段18个重点省市,发现产业集聚作为其经济发展过程中出现的一个重要空间现象,与区域创新活动在空间上的发展态势呈现出一种高度相似的集聚状态,这一事实表现是否意味着“一带一路”沿线省市产业集聚与
小微企业对我国国民经济的发展以及社会的稳定起着至关重要的作用,但因其规模小、经营能力不足,难以从大银行获取融资,普遍存在“融资难”的问题。对于迅速崛起的多家金融投资机构而言,随着传统的大中型企业客户源融资方式的转变,投资机构亟需扩大小微企业市场。然而,小微企业信用风险问题却成为投、融资双方合作的最大阻碍。因此,如何制定出一套科学、有效且适用于小微企业的信用评估方法,对减少投、融资双方合作的阻碍十分
文本是数据表示和存储的最主要的形式之一。文本所记录的数据往往会包含许多个人隐私信息。因此,文本数据的发布和利用会对个人隐私构成巨大的威胁,使得对文本数据的隐私保护成为一个紧迫的问题。在隐私保护过程中,文本数据隐私泄露风险评估起着重要的作用,它有助于人们对文本敏感程度的理解以及对文本重要程度的定位,也决定着应对文本数据中的隐私数据进行多大程度的后续处理(例如泛化或混淆)。然而,现有的隐私泄露风险评估