基于改进BERT预训练模型和图神经网络的中文文本摘要技术

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:wuyi101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了让人们能够从大量的文本信息中准确地获得关键性的内容,文本摘要技术被广泛关注。随着自然语言处理和深度学习技术的发展,很多基于深度学习的文本摘要方法被提出。本文通过对现阶段文本摘要模型进行研究,发现了针对中文的文本摘要模型会出现割裂语义,生成摘要不通顺,冗余信息过多,无法有效处理长句的问题。针对以上问题本文提出了一种抽取-生成式中文文本摘要模型,具体研究工作如下:(1)本文构建了适应中文的基于改进BERT抽取式文本摘要模型。模型输入不再使用字向量,而是先对数据进行分词处理后生成词向量作为输入的一部分,减少了语义割裂现象的出现。同时在遮盖预训练任务中,改变遮盖策略,采用动态长序列遮盖,提高了模型对于词语和句子的理解能力。除此之外,为了能够有效处理长文本,模型采用了层分位置编码的方式生成词向量的位置信息,作为输入的另一部分。同时删除段落编码和下一句预测任务,直接对长序列进行训练,减少了训练中噪音的干扰。本文通过消融实验验证了上述改变点能有效实现目的。(2)本文提出基于GNN的生成式文本摘要方法。使用由图数据直接映射到序列的Graph2Seq模型,将抽取式模型生成的摘要转换成图结构数据,利用图编码器生成图向量,引入关键词注意力和图注意力,构建融入多种注意力的解码器生成最终摘要。该方法能够有效的利用图结构数据和GNN的特点,生成更加精炼与通顺的摘要。本文在中文数据集nlpcc2017上对本文模型和数个基线模型进行了对比实验,实验结果表明,本文提出的抽取-生成式文本摘要在评价指标上,ROUGE-1,ROUGE-2,ROUGE-L的得分分别为40.07%,23.17%,32.27%,得分均高于现在比较常见的文本摘要模型,同时通过实例展示可以看出,本文模型生成的摘要更加精炼通顺并且契合主题。综上所述,本文提出的文本摘要模型在中文数据集上表现较好,具有一定参考价值。
其他文献
近年来,柔性结构与材料的大规模开发与应用对其结构的形变实时监测技术提出了许多新的要求。相比于其他形状感知技术,光纤传感技术具有抗电磁干扰、生物相容性且易于集成等特点,因此被认为是下一代传感技术的重要组成部分。目前,由于已开发的光纤形状传感技术受到光纤应变测量技术与三维重构算法等因素制约,仍存在测量精度不理想、测量离散化与高重构误差等问题。本论文针对上述问题,设计了一种具有高空间分辨率的分布式光纤三
学位
<正>近年来,陇南苹果产业逐步形成了向优势区域集中生产的格局。针对此,我们从多方面分析了目前陇南苹果产业具有的独特发展机遇与发展优势,同时提出了促进陇南苹果产业升级转型与创新优化的一系列发展措施,以期全面推动与促进未来陇南苹果产业的可持续发展。在传统农业与现代产业交替发展之际,大力保障苹果优势区域的品牌,对我市农业产业发展具有战略性意义。
期刊
据统计,2020年以来,我国境内捕获的恶意程序达261,603个,恶意软件的攻击造成的后果十分严峻。针对数量庞大的恶意软件,针对恶意软件的分类显得尤为重要,准确率更高的分类方法可以帮助我们更好的应对恶意软件的攻击。而随着恶意软件的不断进化,种类不断增多,传统的静态分类方法与动态分类方法已无法应对新兴的恶意软件,因此,本文采用多特征融合与深度学习相结合的方式,提出一种新的分类模型,经实验数据验证,分
学位
在光网络信号的传输过程中,长距离传输是一个非常重要的研究方向,光信号经过长距离传输会出现信号质量劣化的现象进而导致输出信号的光信噪比降低、接收端出现误码,所以为了提高信号的质量在长距传输中一般会加入掺铒光纤放大器、拉曼放大器、遥泵等设备和添加前向纠错码。通过使用前向纠错码能够以较低的代价提升信号的传输距离,现有的前向纠错码应用的环境基本为2.5Gbit/s速率以上的光传送网中,而千兆速率的以太网帧
学位
随着国内经济的稳步发展及车辆制造科学的不断进步,机动车保有量逐年增加,各个城市的交通问题逐渐显著,如何有效地将通信技术与信息技术相结合去解决交通拥堵的问题已经成为了当今时代的重要课题。交通流预测已经成为了一个热门的研究课题,国内外越来越多的学者投入到该领域的研究之中。近十年内,世界各国的研究学者提出了很多种不同的交通流预测方法,但绝大部分方法都是在时序层面对其进行预测,对交通流量空间相关性的研究不
学位
为了厘清新的气候期(1991-2020年)陕西北扩区苹果气候适宜种植区的精细化分布,揭示该区域苹果可发展种植潜力,本文基于陕西苹果产区气象观测、数字高程模型、耕地确权等多源数据资料,综合考虑陕北山地苹果种植的气候与立地条件需求,选取年平均气温、年降水量、6-8月空气相对湿度、6-8月平均最低气温、1月平均气温、坡向、坡度共7项因子作为区划指标,采用多元回归方法进行各气候因子空间化模拟推算,基于模糊
期刊
作为人机交互的关键技术,语音合成是人工智能领域的重要研究方向之一,基于深度学习技术的语音合成方法也日益成熟,其核心是建立文本到语音的非线性关系模型,实现文本序列和语音频谱帧的特征映射关系。然而当前主流的语音合成模型面临着高质量单一音色训练数据需求较大和供给不足的矛盾以及当合成长文本时出现的重复读音、遗漏读音等鲁棒性问题。针对语音合成领域当前存在的高质量单音色语料缺乏和长文本合成鲁棒性较差的问题,本
学位
中文公司名实体识别是命名实体识别的一个细分领域。中文公司名实体识别是对企业的曝光率、知名度、运作状况等信息进行自动化分析的基础,在新闻、财报的自动化分析中具有重要意义。但是,目前的中文公司名识别遇到了很多难点,导致识别率偏低。本文针对这些难点,分析了各个模型的优劣,并针对性地搭建了测试语料库。本文的主要工作如下:(1)针对中文文本缺少分隔符以及中文一词多义现象常见的情况,本文使用BERT词向量模型
学位
三维人脸重建技术在信息安全、日常生活中的应用已经得到了广泛部署,同时解决由于生成时间复杂度、三维点云数据质量等因素,影响三维人脸生成质量的问题仍然是一个技术难点,本文针对现有三维人脸重建算法存在的问题展开研究,具体研究内容如下:(1)针对现有三维人脸重建算法中,由于三维点云数据不密集,造成三维人脸生成质量不佳的问题,本文提出了区域色彩迁移算法。该算法先标注色彩填充区域,并在标注区域内部对填充色块进
学位
肌电模式识别是一种先进的智能信号处理技术,已被认为是一种可靠的用户意图分类的重要方法。目前相关的研究报告了在实验室里的高分类正确率,但在临床应用方面仍不能令人满意。其中一个重要的原因是,EMG-PR方法的稳健性仍然不够强,无法应对许多问题,如日常使用中的电极移位,肌肉疲劳,以及力度的变化。其中,力度的变化是影响EMG-PR方法性能的关键问题。因此,提高肌电模式识别方法的抗力变化的鲁棒性就显得尤为重
学位