基于深度学习的文本摘要方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:whnbj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自动文本摘要已成为自然语言处理领域的重要研究方向之一。文本摘要任务旨在将文本转换为仅包含关键信息的简短摘要。尽管随着深度学习技术的发展,文本摘要模型已具有较强的编码能力,但是仍然存在着诸多问题。例如在抽取式方法中无法有效对抽取单元的选择与排序方式建模;在生成式方法中缺乏对关键信息建模、存在输出文本集外词占比过高等问题。因此,论文针对这些问题,研究了现有的文本摘要技术并进行改进,主要的研究内容总结为以下三点:(1)提出一种基于语义匹配的抽取式文本摘要方法。该方法利用原文中的多条关键语句组成候选摘要,并以此作为抽取单元。使用深度学习技术构建语义匹配网络,计算候选摘要与原文之间的相似度,引导模型抽取与原文语义匹配最佳的候选摘要。论文在相关数据集中开展实验,实验结果不仅说明候选摘要作为抽取单元的合理性,而且验证该方法可从文本语义层面出发,抽取与原文语义相近且主题明确的摘要。(2)提出一种基于关键信息掩码与拷贝的生成式文本摘要方法。该方法使用信息抽取算法输出原文的关键信息,通过改进现有的掩码语言模型和拷贝机制,对文本中的关键信息建模,并利用深度学习技术构建基于BERT+Seq2seq架构的生成式模型。论文在相关数据集中开展实验,实验结果表明该方法不仅使BERT模型获得根据文本生成摘要的能力,而且在生成摘要时能拷贝原文中的关键信息和连续序列,在减少集外词出现的同时,提升摘要的生成质量。(3)提出一种基于最大边缘相关算法的段落级文本摘要方法。为了提升生成式模型处理长文本序列的能力,通过将抽取式模型与生成式模型结合,并使用段式最大边缘相关算法消除段式摘要之间的冗余信息,精简生成式模型的输入源,以此构建段落级摘要模型。论文在相关数据集上开展实验,实验结果验证该方法能有效处理长文本摘要任务。
其他文献
移动互联网和物联网的发展使得数据流量激增,而且出现了更多的计算密集型、时延敏感型的应用。大规模云计算平台的部署使得用户可以将高强度的计算任务转移到计算资源丰富的远程云服务器上,但是传输延迟较大。为了减少云中的长回程传输延迟,移动边缘计算应运而生,以支持对延迟敏感的应用程序。在对移动边缘计算的研究中,对边缘服务器上协作缓存和卸载机制的研究是丰富的,一方面缓存机制可以将执行计算任务所需的程序、数据等资
学位
在雾霾天气下,大气中的悬浮细微颗粒影响光的传播路径,成像系统所采集到的视频或图像容易呈现出低对比度、色彩偏移以及清晰度受损等退化现象,不仅严重影响了图像的视觉效果也限制了数字图像在各领域的应用价值。因此,利用图像去雾技术,减少或消除雾霾对图像的影响,还原出图像原始细节具有重要的研究意义。近年来,图像去雾算法的研究已经成为计算机视觉领域的研究重点,尤其是基于深度学习的去雾算法取得了重大进展,然而多数
学位
太赫兹通信技术凭借超大带宽的优势有望成为未来6G(Sixth Generation)的关键技术之一。超大规模天线技术可以提供巨大的空间分集,提升频谱效率,同样有望在6G无线通信系统中起到关键作用。在基于移相器的超大规模多输入多输出(Ultra-Massive Multiple InputMultiple Output,UM-MIMO)混合预编码中,由于太赫兹频段的超大带宽,不同频率的子载波信道具有
学位
西湖龙井被誉为中国的“绿茶皇后”,自2009年以来,西湖龙井茶的价格一直飙升且居高不下,本文根据三次实地调查,采用1980—2016年间的顶级明前西湖龙井茶的价格数据,运用经济学原理,对顶级明前西湖龙井茶的需求收入弹性系数进行测算,测算结果表明:近年来,顶级明前西湖龙井茶的“身份”已由生活必需品转变成奢侈品了。在此基础上,运用计量经济模型进行了实证分析,实证结果表明:顶级明前西湖龙井茶产量极少、供
期刊
自5G商业化建设以来,信息与通信技术产业变革进程逐步加快,催生了高清视频慢直播、沉浸式互动体验及智慧人脸识别等新型应用,对终端设备的计算、存储资源提出了巨大挑战。而雾计算模式可以提供分散式的自主数据中心,以保障同一时间段内的多用户连接状态,降低设备负载压力,缓解信息过载现象。进一步地,针对边界雾节点的资源受限问题,融合计算迁移技术的相关研究被广泛开展,但仍缺乏对设备自给供电能力、资源分配公平性及协
学位
当今社会,科技水平发展日新月异,人工智能在其中扮演着重要的角色。智能机器人作为人工智能的一个典型代表,已经在仓储运输,医疗,救援,服务等诸多场景被广泛使用。基于视觉的同步定位与地图构建(SLAM,Simultaneous Localization and Mapping)技术是智能机器人研究领域里的关键技术。然而,传统的SLAM系统大多基于静态环境的假设,在动态环境下容易受到场景中动态物体的影响,
学位
随着信息与通信产业的发展,光纤通信系统得到了广泛的使用,日益增长的信号处理速率和通信容量的需求使光路集成度越来越高。近年来,绝缘体上硅(SOI)平台由于其与互补金属氧化物半导体(CMOS)工艺的良好兼容性,在光子集成领域得到了较高的关注,但由于其波导和包层之间高折射率差的存在,会引入显著的偏振相关损耗和偏振模色散,限制了硅基光电子器件的应用。偏振分集系统被提出以解决这一问题,偏振控制器件作为该系统
学位
癌症是一个重大的公共安全问题,威胁着人们的身体健康和家庭幸福。如果可以在治疗早期对高危患者进行识别,这将对治疗方法的选择和后期监测具有至关重要的作用。目前,临床普遍使用NCCN-IPI(National Comprehensive Cancer Network International Prognostic Index)对患者进行预后判断。近年来,许多研究发现,PET(Positron Emis
学位
基于动态的表情识别旨在将给定的视频分为几种基本的表情类别。在逐渐智能化的未来,情感识别必将渗入到更多的生活场景中,动态表情识别在人机交互中更发挥着至关重要的作用。人脸表情结构复杂、细节多变,难以一概而论,这使得表情识别极具挑战性。对于动态人脸表情识别,由于面部肌肉及纹理在时序上的动态变化往往难以捕捉,而且视频中的时间信息不能被完整地利用,从而导致整体的识别性能欠佳。本文以提升动态表情识别模型的准确
学位
近些年来,由于网络技术的提高,产生的数据流量几乎是指数形式的增长,正因为这一形势,拥有着高速率传输、极大的信道容量和功率容量、以及低传输时延的5G便理所当然的进入了我们的研究视野。而在5G通信的应用领域中,与天线仿真设计研究最密不可分的便是毫米波技术,而毫米波技术也凭借着其在通信中所独有的较窄的波束宽度窄、极佳的方向性和稳定的传播性能的等优点,促进了毫米波天线在5G中的进一步应用。而对于基站天线这
学位