面向新闻文本的摘要生成技术研究

来源 :新疆师范大学 | 被引量 : 0次 | 上传用户:hordark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和社交媒体的快速发展促使网上新闻文本数据呈爆炸式增长,如何快速高效的获取所需信息已成为亟待解决的问题。自动文本摘要技术能够将冗长文本压缩处理为简洁连贯且不失原意的短文,从而加快人们获取信息的速度。基于Seq2Seq模型的生成式文本摘要模型取得了较好的效果,但这类模型大多采用教师指导的方式进行训练,这会导致曝光偏差问题。为此,文中探究了两种不同的解决方案:(1)借助对比学习技术,通过将目标序列与其对应的正负样本在特征空间进行对比,来学习更合理的预测表示分布;(2)借助对抗强化学习技术,在训练摘要模型时,下一步单词的选择以最大化未来摘要序列的奖励为目标,而不是通过极大似然估计直接提升单词的概率。这两个研究工作的主要内容为:(1)基于对比学习的生成式文本摘要模型研究。提出了基于对抗性扰动对比学习的指针生成器网络PGN-CL来建模文本摘要生成过程,该模型以指针生成器网络PGN为基本架构,设计了一种新的对比学习方法来构建正负样本,使模型在训练过程中可以充分接触到各种正确和错误输出以解决曝光偏差问题。相较于随机挑选的正负样本,文中方法生成的正负样本会更加难以区分,这可以让模型在特征空间更好的学习到正负样本的区分特征,获得更准确的摘要表示。实验结果表明PGN-CL模型在ROUGE评价指标上的表现优于基线模型,能够生成更准确连贯、概括全面的摘要,证明了引入对抗性扰动对比学习对摘要质量提升的有效性。(2)基于对抗强化学习的生成式文本摘要模型研究。提出了基于对抗强化学习策略梯度的预训练语言模型PLM-RLGAN来建模文本摘要生成过程,该模型将生成器和判别器分别建模为强化学习中的智能体和环境,通过强化学习策略梯度来优化生成器以获取高奖励的摘要。在模型训练过程中,通过奖励来决定选择哪一个单词能使摘要预测序列的质量最好,而不是通过极大似然估计最大化摘要句子中单词的联合概率分布,从而有效地避开曝光偏差问题。将该训练方法应用于预训练语言模型和较为先进的文本摘要模型中,证明了对抗强化训练对文本摘要模型改进的有效性。
其他文献
一幅优秀的油画作品是由独特的艺术元素而构成,要形成一个丰富和谐的画面效果,利用画面的明暗关系、色彩的冷暖对比和变化以及画面的光影效果来展现与表达作品中要体现的绘画语言。在当今社会不断发展进程中,绘画始终在借用光影视觉效果,光与影在油画艺术作品当中是常见的表现形式,本人通过以油画作品《定格》系列主题的创作,强化光影叙事性,利用光影元素与色彩的和谐运用展现此次创作的艺术思想与艺术形式。
学位
在艺术领域中,绘画的叙事方式能够充分地引导观赏者感受画面内容。这种古老的做法比文字叙事起源更早,接受更快,从而一直延用到了今天。当今我国部分美术创作者仍以现实作为根基进行实践绘画,但这种风格在众多艺术表现中的地位随之下沉,此时我们很有必要去坚持追溯和探寻自己最初的艺术道路。文中对于创作中不同的叙事情景进行了构成整合,认真学习国内外艺术家的创作经验来进行整体反思。其研究目的是通过实地考察来体会人民对
学位
王晋元先生以云南为依托,用四十年的时间探索花鸟画的创新之路,用自身所能推动云南花鸟画的多样化发展,为云南现代花鸟画的发展奠定了坚实的基础。越来越多的画家从先生处受其启发,深入自然,因此以花鸟山林为题材的笔墨艺术作品也愈来愈多,云南的花鸟画呈现繁荣景象。本文从除引言外四个章节全面的诠释王晋元的笔墨艺术,第一部分概括王晋元先生的艺术人生,从所处的时代背景着手,研究其思想、笔墨的形成,并概括性地分析了王
学位
近年来,随着深度学习的不断发展,在语音情感识别方面取得了傲人的成就,相比于一些传统的算法具有很大的优势。将深度学习与课堂教学相融合引领了新的教育改革,例如空中课堂、钉钉课堂等可以在线签到,实现教师和学生在线互动,打破了传统的课堂教学模式;同时,由于深度学习技术的成熟和完备,许多高校也开始利用该技术实现对课堂学生肢体动作与表情的识别。为此,本文将引入深度学习技术,把课堂教学中学生的语音情感当作识别的
学位
哈萨克族作为新疆游牧民族之一,拥有着悠久的历史,在漫长的发展过程中,创造出了独具民族风格的建筑——毡房。随着社会的不断发展,这样一种独特的地域性文化建筑的重要性便凸显出来。但也正是因为时代的变迁,毡房原有的使用特征及建筑特色逐渐的淡化。如何将其独有的游牧民族文化特征得到保留与传承,并且使之贴合现代化的发展,成为中国游牧文化底蕴的价值承载物,是民宿设计的难题。本文通过对哈萨克族发展历史及传统毡房的研
学位
此论文主要以写意人物画的表现形式对冬捕题材人物画进行创作和研究。通过吸收和借鉴优秀的冬捕题材写意人物画作品,体会其中的用笔用墨和造型特色,运动到自己的创作中,并在日常的创作实践中寻找自己冬捕题材写意人物画的创新之处,形成自己的绘画特点。本文内容共分为四个部分:第一部分为绪论部分,主要讲述冬捕题材写意人物画的选题来源、研究目的及手段、研究重点难度及创新之处。第二部分为冬捕题材写意人物画的分析与借鉴,
学位
本文提出了一种带有滤波功能的宽带磁电偶极子天线。该天线由一对水平贴片和垂直短路贴片组成,由一条Γ型馈线同时对磁偶极子和电偶极子进行激励。通过将馈线短接,有效地提高了阻抗带宽,并且增强了上边带的边缘选择性。另外通过在馈线上加载四分之一波长开路枝节引入了零点,进一步提高了天线的带外抑制水平。通过电磁仿真软件对该天线模型进行仿真,结果显示,在1.35至3.03GHz的工作频段内,天线的阻抗带宽达到76.
会议
为预测河流水质状况及水质的演变趋势,本文提出利用基于时间序列的CEEMDANN-BEATS的水质预测模型。以新疆阿勒泰地区额尔齐斯河水质监测数据为样本进行训练和验证,使用线性插值法补全存在的缺失值来提高水质数据的完整性。通过将溶解氧、氨氮含量、高锰酸钾质数等指标构成的时间序列分解为相应的水质参数分量来预测水质指标。实验结果表明,通过CEEMDAN-N-BEATS水质预测模型进行水质预测所产生的预测
学位
机器阅读理解是自然语言处理领域的热门话题之一,其意义在于使机器理解文本语义并具备推理提炼文本信息并回答相关问题的能力。得益于深度学习技术的不断发展以及大量机器阅读理解数据集的发布,机器阅读理解的研究取得了很大的进展。但是,现有研究中采用的word2vec词嵌入技术存在长距离依赖、一词多义与未考虑中文分词特性等问题。同时,很多研究中使用的模型都是基于经典单一模型修改而来的,单一模型存在泛化能力不足且
学位
随着科学技术的进步,大多数人都拥有智能机器或智能终端。以智能语音助手为例,只有能够对人类的情绪做出快速准确的评估,才能充分理解人类的情绪和意图,并产生更智能的反应。在智慧医疗中,对患者情绪状态的智能识别,有助于舒缓患者情绪,协助医生完善治疗方案。在智能交通中,实时监测驾驶员的情绪状态,如果发现异常情况,如醉酒、疲劳驾驶等,将第一时间发出提醒,有效避免交通事故。在人工智能时代,人机交互越来越普遍,用
学位