论文部分内容阅读
飞速发展的互联网与大数据技术使我们置身于信息爆炸的时代,同时也导致文本信息过载的问题变得更加严重。通过互联网我们能够快速获取海量信息,但网络中文本含有大量的冗余数据,自动文本摘要的目的是提炼出文本的关键内容并生成简短摘要,能够有效提升用户的使用体验,故颇具研究意义。目前,基于深度学习的自动文本摘要技术已经取得了不错的发展,但是受限于软硬件条件和模型复杂度的要求,在文本较长的情况下相关算法还是存在许多不足,并且生成的摘要难以充分覆盖源文本的关键信息。本文主要基于深度学习技术,设计合适的模型架构和训练策略,有效改善单文档中长文本输入的生成式文本摘要效果。本文的主要工作和研究成果如下:本文基于序列到序列基础架构设计生成式自动文本摘要模型,借助迁移学习的思想,提出了基于预训练模型的生成式自动文本摘要算法,有效增强了摘要模型的文本表示和特征抽取能力。并且,本文引入多任务学习,针对性地设计了三阶段训练策略:第一阶段使用抽取式文本摘要任务对模型的编码器部分进行微调;第二阶段使用生成式文本摘要任务对整个模型进行训练;第三阶段使用多任务学习对抽取式和生成式文本摘要任务进行联合建模并训练,最终在真实数据集上取得了较好的效果。此外,针对长文本输入,本文放弃对长文本使用截断策略,而是通过无监督的关键句抽取算法得到关键句,从而将其压缩为短文本,然后在短文本的基础上运用模型生成摘要,减少长文本中关键信息的损失。并且,为进一步增强模型的关键信息抽取能力,本文构建了关键词抽取数据集,将关键词抽取任务转换为分类任务,在基于卷积神经网络搭建的模型上进行分类训练,最终将得到的关键词作为摘要模型的额外输入,用于优化注意力机制的权重分布和指针网络的概率计算过程,有效增强模型的关键信息抽取能力。本文在中文和英文公开数据集上进行测试,详细验证了文中所提出的算法和各项改进策略的有效性。实验结果表明,相较于一些基线模型,本文提出的算法能够在多个方面获得提升,并最终取得了较好的摘要结果。