基于深度学习的文本摘要技术研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:naizhi1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国互联网和移动通信设施的快速建设,使得以互联网技术和移动通信技术为基础的移动互联网的迅速普及,并带来了在移动互联网上运营的社交媒体应用的繁荣。繁荣的社交媒体应用促进了进入互联网应用的门槛的降低,更多的人成为互联网信息的创作中心,丰富了互联网的内容。但是,互联网上丰富多彩的内容对在快速的生产生活节奏下的人们高效获取信息造成了障碍。通过高质量的文本摘要可以提升人们在选择和获取信息时的效率。随着计算机硬件性能的增强,深度学习技术得到了发展,同时将深度学习应用到自动文本摘要生成成为越来越重要的课题。目前,根据产生摘要的方式划分自动文本摘要,可以分成是抽取式和生成式文本摘要两类。抽取式方法得到原文的句子组成的摘要,句子长短不一,概括性不强。生成式文本摘要得到的摘要的方法类似于人对原文信息的理解,句子长度可控,但是较难全面捕捉原文的主要信息。针对这些问题,本文采用深度学习对生成式文本摘要方法进行进一步研究,研究中的主要内容如下:(1)本文对序列到序列模型作了进一步的研究,包括序列到序列模型的结构、原理和类型等,并在提出算法时指出了序列到序列模型的一些情况中比较难获得一个准确的语义表示的摘要的不足之处,针对这一问题引入注意力机制进行改进。(2)本文对注意力机制作了深入的研究,包括其原理、本质等,并进一步研究了自注意力机制的基本原理。在此基础之上,提出将序列到序列模型采用可以兼顾全局注意力信息和局部注意力信息的混合注意力机制作出改进,得到二者相结合的文本摘要模型。在训练时,使用对抗学习的方法对模型的监督强度进行动态调整,进一步提升模型的效果。(3)本文在对数据集进行简单介绍之后,对相关数据集作出分析,选取了合适的数据集。基于提出的模型在选好的数据集上设计实验,采用文本摘要常用的评估方法ROUGE与基准模型对比进行评估,证明模型的有效性。
其他文献
圆周扫描地基SAR是将机载圆迹SAR模式引入地基平台的一种新体制地基SAR,与传统的直线轨道地基SAR相比,其具有三维成像能力、单次数据采集时间短、滑坡监测时效性强等优势。近年来,研制具备三维成像能力的地基SAR系统已成为一个国际研究热点。作为一种全新的地基SAR模型,圆周扫描地基SAR仍处于刚起步的阶段。目前,国际上已经验证了利用该模式三维成像的可行性,但其三维成像质量与实际应用中的成像质量要求
计算机技术发展以来,人机交互成为了计算机领域主要研究的内容之一。随着人工智能技术的快速发展,越来越多的人机交互成果被使用在生活中,同时驱动着机器视觉中与人脸相关的大量研究与应用,人脸表情是其中重要的组成部分。生成对抗网络(GANs)自2014年提出,被广泛应用在文本、图像等领域。学者们利用其优秀的生成能力进行人脸研究并且取得一些成果。但是近几年的研究发现,GANs在有限样本的情况下容易产生欠拟合,
光纤预警系统(Optical Fiber Pre-warning System,OFPS)是一种铺设于管道周围、利用分布式光纤传感的预警系统,因具备稳定且精确度较高的特点,被广泛应用于检测管道泄露、人为或机械等入侵行为。OFPS在检测到信号入侵后,识别部分可以通过算法判断入侵信号的类型,依据信号的危险程度采取不同的手段及时止损。目前,在OFPS领域已经有很多成熟的检测与识别算法,但如何判断振动信号
在工业生产中普遍存在时间序列样本不平衡的问题,即正常情况下的样本数量远远大于异常情况下的样本数量。在电解铝行业中这个问题更加的明显,因为在工业生产中发现异常样本是非常困难的,专家没有一个明确的准则来判断异常。近年来,生成对抗网络(GANs)在异常检测领域越来越流行,在本文中,我们利用生成对抗网络(GANs)能够对复杂的高维图像分布进行建模的能力,提出了一种基于输入样本自适应改变的对抗自编码器生成对
云计算作为一种信息处理基础设施模式和商业模式,逐步得到广泛认可。云服务的执行离不开服务执行环境所提供的计算资源和数据支撑。数据及其负载作为服务执行环境的重要支撑,同样也影响着服务质量。在数据负载不断出现波动的时候,服务执行环境的稳定是确保服务质量的关键一环。为确保服务执行环境的稳定,基于数据负载趋势并主动调配资源是目前较为流行的系统管理方法。本文以提高服务质量为目标,基于数据负载的多维度特征,进行
随着三维点云数据被应用到越来越多的领域,如何快速、准确地识别三维点云物体逐渐成为研究的重点之一,尤其是自动驾驶这种对物体识别的实时性有较高要求的领域。由于点云具有非结构化、分布不均匀等特点,传统的深度学习网络不易直接处理。而且,庞大的网络参数和复杂的网络结构也影响着深度学习网络的运行效率。宽度学习系统虽然克服了网络运行速度较慢的问题,但其在三维点云物体识别领域的研究较少,且宽度学习系统也无法直接处
随着社会和科技的发展,人们对时间序列等数据的研究日渐深入,然而现实中的时间序列多有几种基本成分复合而成,直接对其使用单一模型进行预测,预测精度难以提高。本文研究的数据来自风云3号A星的中分辨率光谱成像仪(MERSI)的定标参数时间序列,此时间序列在长时间段上呈现上升趋势,同时短时间内又有周期性变化,同时还含有噪声。本文先鉴于集合经验模态分解(EEMD)和Seasonal-Trend decompo
音乐相似度检测是音乐信息检索领域的一个重要分支,对于辅助鉴定音乐抄袭以及其他基于音乐内容的检索、审查有积极作用。准确而且适当的音乐特征提取对于提高音乐信息检索的效率具有重要意义。音乐相似度的含义较为丰富,音乐之间相似性可以归纳为情感相似、乐理特征相似、流派相似等。在翻唱、抄袭检测的应用场景中,应当侧重比对音乐内容、乐理特征的相似。现有音乐相似度检测方法主要有两个问题:一、音乐主旋律及其他音乐特征提
近年来,物联网技术和应用得到了快速发展,实时处理物联网设备产生的海量数据对于提升数据价值密度,快速响应业务事件具有重要意义。物联网终端设备众多,产生的数据经过复杂且不稳定的网络,可能会有乱序情形,针对乱序数据的数据分析和查询结果会出现错误,影响业务决策。此外,随着智能终端的发展,嵌套式结构逐渐成为物联网数据的常见格式,设计嵌套式数据存储与查询方法,提升数据检索速度是需要关注的问题。基于上述分析,本
随着工业数字化、网络化的快速发展,互联互通、智能化的工业物联网(Industrial Internet of Things,IIoT)应运而生。IIoT作为国家基础设施的神经中枢,需要高安全性的通信协议互连,因而协议的安全性分析尤为重要。协议安全分析的前提是已知协议格式,然而IIoT设备厂商出于优化通信性能或提供个性化功能等因素考虑,导致IIoT中存在大量的未知、私有协议。现有的对未知协议解析方法