【摘 要】
:
借助大数据分析手段,情报分析人员能够从表面上看似毫不相关的新闻事件中挖掘出潜在情报。然而要全面、及时地筛选与分析各类新闻需要耗费大量的时间和精力。因此,如何在短时间内获取能够清晰地传达新闻主题信息并且流畅易懂的摘要进行辅助阅读,已经成为目前急需解决的问题。Transformer模型在完成自动文本摘要生成任务时能够有效解决序列并行训练问题,提高了摘要生成的速度。但它并不擅长对主题信息进行编码,无法获
论文部分内容阅读
借助大数据分析手段,情报分析人员能够从表面上看似毫不相关的新闻事件中挖掘出潜在情报。然而要全面、及时地筛选与分析各类新闻需要耗费大量的时间和精力。因此,如何在短时间内获取能够清晰地传达新闻主题信息并且流畅易懂的摘要进行辅助阅读,已经成为目前急需解决的问题。Transformer模型在完成自动文本摘要生成任务时能够有效解决序列并行训练问题,提高了摘要生成的速度。但它并不擅长对主题信息进行编码,无法获取新闻的主题信息。在摘要生成过程中,该模型会多次注意到相同的单词从而生成重复的内容。此外,由于Transformer模型输入序列长度的限制,对于一些较长的新闻文章,在输入时通常采用截断处理,这会导致部分原文信息丢失,进而影响生成摘要的全面性。为了解决上述问题,本文进行如下研究:(1)为了提高Transformer模型对主题信息的编码能力。本文在传统注意力机制的基础上加入主题信息。首先通过LDA主题模型获取主题词分布构建主题相似矩阵。然后调整注意力权重矩阵,使模型可以学习到新闻中不同词语之间的主题相关性,从而得到具有明确主题信息的摘要。此外,为了解决生成摘要重复问题,在模型解码过程中,初始化覆盖向量用于优化注意力得分。然后使用覆盖损失修改损失函数来减少注意力关注重复位置的可能。经过实验验证,本文提出的模型在不同长度的中文新闻摘要数据集上均取得了较好的效果,能够有效提高生成摘要的主题一致性及可读性。相较于传统的Transformer模型,该模型生成的摘要结果在长文本数据集上的ROUGE-1,2,L分别提高了2.34,2.95,3.69,在短文本数据集上的ROUGE-1,2,L分别提高了3.12,3.86,6.27。(2)为了解决Transformer模型在长篇新闻摘要生成任务中原文信息缺失的问题,本文设计了一个抽取-生成式的两段式摘要生成模型。首先提出了一种基于TextRank算法的关键句抽取算法。根据新闻的特殊结构从句子和单词层面得到了更全面的文本特征信息,包括句子段落位置、句子标题相似性、关键句子、句子长度、线索词与转折词、关键词与专有名词。使用不同维度的文本特征修改TextRank算法的概率转移矩阵,从而得到更准确的句子权重。然后采用MMR算法更新句子权重,通过集束搜索得到候选摘要集合,在MMR得分的基础上选择内聚性最高的摘要作为候选摘要。然后将候选摘要输入生成式摘要模型得到最终摘要。在NLP2107长文本新闻摘要数据集上的实验结果表明,相较于主流的抽取式算法,改进的TextRank算法能够得到一个低冗余高覆盖的候选摘要。对于长篇新闻,引入抽取式摘要算法能够有效保留原文的关键信息,提高生成摘要的ROUGE得分及语义相似度。
其他文献
随着深度学习与人工智能技术的不断发展,人机交互在当前已经不再是一个陌生的话题,为了有更好的体验,人脸表情识别成为一个新的研究热点。深度学习的出现取代了传统手工提取人脸表情特征的方式,使得人脸表情识别技术得到了飞速提升,残差网络的提出使人脸表情识别的表现更上一层楼,但是如何设计一个好的残差网络,以便更有效地提取人脸表情识别所需的特征,从而提高其准确性,仍然是当前研究的重点。针对上述问题,本文选用Re
通常要进行三维场景的构建需要真实环境的支持,室内环境的三维场景重建一般由激光雷达或视觉传感器完成,由于激光雷达成本高花费大,重建出来的结果缺少彩色信息,因此选用视觉传感器和SLAM系统,然而SLAM系统重建出来的地图依然是稀疏的场景地图,跟进工作无法继续。为了解决上述问题,本文主要利用多源传感器(深度传感器和IMU惯性传感器)融合的室内环境稠密三维重构方法,从而补充了缺失的室内环境数据,保证了正常
随着现代医学模式的转变和人们对健康概念的更新,人们也越来越关注口腔健康和口腔美观,如何快速培养合格的年轻外科医生是一项非常紧迫的任务。因此,本文所开发的基于力反馈的口腔临床虚拟教学系统(Oral Clinical Virtual Teaching System,OCVTS)可以缩短口腔医生手术训练周期,有利于缓解现阶段口腔医生短缺的局面,为满足人们对美好生活的需要具备重要的现实意义。本文研究内容如
随着第四次工业革命浪潮的到来,智能产品已经进入人们的视野。移动机器人是机器人的重要组成部分之一。在移动机器人所涉及的关键技术中,一个重要的问题是机器人导航。其中,在未知的复杂环境中,SLAM(Simultaneous Localization and Mapping,同时定位与地图构建)技术在机器人工程中发挥着至关重要的作用。由于单个传感器只能检测到有限的信息,它们在智能产品中的应用仅限于发出简单
时间序列数据反映了时间和事务两者之间的变化过程,挖掘隐藏在时序数据中的规律变得非常重要。本课题研究的主要目标就是寻找一种采用波形匹配算法,以解决在海量的时序数据中查找与某一段波形相匹配的数据段此类曲线搜索问题。本文主要研究工作如下:1)CNN提取曲线特征过于随机,而且要查找的曲线目标是临时给出的,并没有多余的训练样本。本文使用相关时序数据集作为训练样本,解决提取曲线特征过于随机的问题,使用孪生神经
随着数字化技术与手术导航技术的快速发展,口腔植入引导技术已成为现代口腔种植导航及相关诊疗器械研究的重点。本文针对当前种植导航领域的热点问题,研究了基于多传感器融合的车针目标跟踪方案,采用基于灯塔激光的VR定位技术和相机光学定位技术,提出的融合方案包括预处理阶段、基于不同传感器的初步定位解算阶段、数据融合测试阶段。研究包括基于不同传感器定位的目标位姿解算模型和种植导航的误差控制、多传感器融合方案的实
随着5G网络的兴起,制作一张具有丰富艺术风格的图像并分享在网络社交平台账号上变得越来越流行。风格迁移方法主要是对整幅图像添加风格化的纹理、颜色等处理。基于深度学习的风格迁移方法可以将不同的艺术图像应用在内容图像上,最终生成风格化图像,极大的增强了人们的视觉感官。但这些方法都有个问题,那就是在风格迁移过程中容易忽略原本图像的语义信息导致内容图像失真、变形。因此,本文提出了一种新的改进方法,该方法可以
晶粒度是钢材性能的一个重要评判标准,在微观角度,钢材表面晶粒呈现类似于细胞组织切片的颗粒状分布图像,晶粒的面积、长度、以及单位面积内晶粒个数等特征都影响着钢材的强度、塑性和韧性等性质,而这些晶粒特征在金相检测中通过不同金相等级来反映。目前对于金相等级的评定,最常用的方法还是通过人工依靠经验评定,人工判定金相等级很大程度上取决于工人素质,不确定程度较大。本论文在数字图像处理以及深度学习技术的基础上,
欠压密黄土是处于疏松状态水敏性十分强烈的天然Q3黄土,其物理、力学特性受含水率的变化影响较大,当欠压密黄土吸水饱和后可形成饱和软黄土,易导致工程灾害发生。目前对欠压密黄土失水后的土性变化和工程问题研究较多,但其在地下水位回升阶段,土体在有上覆荷载情况下含水率逐步增大过程中的强度演化特性研究还有待进一步深入。本文基于GDS三轴试验系统,以具有较大孔隙比的欠压密黄土为研究对象,开展了欠压密黄土在水-力
近些年来,图像拼接技术成为了计算机视觉领域的一个研究热点。传统的图像拼接技术在面对弱纹理或无纹理的图像时,如林区、天空以及海面等场景,由于特征检测能力不足,从而会导致拼接效果不佳;在深度学习中,有监督的方法由于数据集的标记工作存在人工成本高,时间开销大等问题,导致该方法难以得到普及;而无监督的方法由于图像间的视差问题,在面对大视差的待拼接图像时,其拼接结果也往往不太理想。为了更好的对林区图像进行拼