论文部分内容阅读
写作是根据输入的论文标题实现论文摘要写作的一种辅助技术,使人类能够更有效、更专业的撰写论文摘要。目前,针对论文摘要写作任务,神经网络通过对大量文本语料的学习可以提取到更具有鲁棒性特征的模型,这类网络虽然实现了良好的效果,但仍然存在着非常大的挑战,其中包括模型输入语料处理存在误差、模型性能的误差等。因此,为了解决以上问题也促进了论文摘要写作技术在机器写作领域的快速发展。本文针对论文摘要写作任务中存在的问题如:循环神经网络不能准确的传达原始信息,主题信息不足导致机器学习难度加大,论文摘要未充分利用,中英文语料研究的差异性以及中文语料具有实际的研究价值,但未曾对中文语料进行研究等问题。分别在提升循环神经网络序列模型性能及优化模型搜索能力层面提出系列解决方案,主要从以下几个方面展开研究:第一,针对循环神经网络不能准确的传达原始信息的问题,提出主题增强机制,并与注意力机制相结合的Seq2Seq模型以增强原始信息的传达。本文利用人类写作时主题重现的习性特征,从主题词汇概率分布和词汇表概率分布两个维度出发,在每一时刻解码生成摘要词汇时,使用主题增强权重对主题词汇概率和词汇表概率进行加权求和以动态调整预测词概率,缓解了主题词未出现在摘要中的问题,从而增强原始信息传达。通过对中英文语料进行实验表明,本文提出的主题增强模型相较于典型的序列模型能明显提升模型性能评分。第二,针对循环神经网络主题信息不足导致机器学习难度加大的问题,本文提出在融入软注意力机制的基础上,通过多模型融合技术,将主题增强机制与编辑机制相融合的Seq2Seq模型,从而获取更多的主题信息。本文利用人类写作时编辑的习性特征,在主题增强机制的基础上,生成摘要的过程中,不断从先前产生的摘要中获取更多的主题信息,用于当前时刻摘要的生成。实验结果表明,本文提出的神经网络模型相较于现有的序列模型,在METEOR以及ROUGE_L上的平均得分分别提高了2.75和2.2个百分点。第三,针对论文摘要未充分利用的问题,本文提出基于主题增强门控中结合标题词汇和摘要词汇的方法。在每一步的生成过程中,将前一版本摘要词汇引入主题增强门控中,按照一定的权重,将标题词汇注意力权重分布和摘要词汇注意力权重分布结合,将结合后的词汇分布作为主题信息概率分布,以更新当前时刻预测词汇概率分布。实验结果表明,本文提出的方法针对论文摘要写作任务相比于目前多种先进的机器写作文本生成方法的性能更高,模型评估结果更好。第四,针对中英文语料研究具有差异以及中文语料具有实际的研究价值,但未曾对中文语料进行研究的问题。本文根据中英文语料预处理方式的差异,研究中文语料中最小文本处理单元对本文提出的几种模型性能产生的影响,通过分析词语级与汉字级文本处理单元的优缺点,提出采用pytorch框架和GPU加速,实现softmax内部使用矩阵和张量运算,使汉字级文本处理相较于词语级文本处理获得更好的论文摘要写作性能。