论文部分内容阅读
随着近几年文本数据的迅速增长,人们的生活充斥着海量的文本信息,如新闻、博客、邮件以及会议报告等。从大量的文本信息中提炼出重点内容已成为解决信息过剩的迫切需求,而自动文摘为此提供了一个解决方案。自动文摘的主要目的是将原文档的主要内容浓缩成一个精简摘要,提高人类快速获取文档信息的效率。早期自动文摘领域的工作大多集中在基于统计学和图排序算法的抽取式自动文摘。近年来,随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式自动文摘到生成式自动文摘的方向演化,以达到生成更高质量摘要的目的。本文的主要工作集中在基于序列到序列模型的生成式自动文摘模型的研究,目前该方面的研究仍面临着诸多挑战,例如基本序列到序列模型的常见问题(词表溢出和信息重复)、获取原文档重点信息能力欠缺以及生成摘要不合理等问题,针对这些问题本文提出了相应的解决方案,主要的研究工作如下:首先,本文采用Subword分词算法处理序列到序列模型的词表溢出问题,该方法将词分割成更细粒度的子词单元,显著减小了词表长度,缓解了词表溢出。同时,本文将已生成摘要的注意力机制嵌入序列到序列模型中以缓解信息重复问题,该机制通过回顾已生成的摘要信息来削弱当前状态蕴含的冗余信息,从而降低生成摘要内容重复的概率。在NLPCC 2017中文单文档摘要标准评测比赛中,该模型获第一名,证明了其有效性。其次,人类在撰写摘要时,往往会预先对原文档的重点信息进行归纳总结,并标记出主题词以方便后续的摘要写作。而绝大多数序列到序列的生成式自动文摘模型将注意力分配到原文档所有内容中,对其蕴含的重要主题信息并没有细致地区分,因而增大了模型对原文档中重点信息发掘难度。鉴于此,本文提出了一种新的融合主题关键词信息的注意力机制,并将其嵌入序列到序列模型中以强化原文档的主题信息,从而更好地引导摘要的生成。具体而言,我们先采用无监督方法识别文本的主题关键词,然后将主题关键词注意力机制和原文档输入序列注意力机制联合起来,辅助模型生成最终的摘要。在NLPCC 2017的中文单文档摘要评测数据集上的实验结果验证了此方法的有效性。最后,人类通常也会对初次撰写的摘要语句进行多次打磨修改,以确保摘要内容的合理与流畅。如今大部分自动文摘系统尚未考虑对已生成的摘要内容进行回顾和修改,因此最终的摘要仍存在一些不尽完善之处。为了解决此问题,本文提出基于全局最新信息的推敲网络模型,该模型包含两阶段解码器,第二阶段的解码器将结合原文档输入序列信息和更新后的摘要信息对第一阶段的解码器输出内容进行斟酌推敲,确保生成更高质量的摘要。在NLPCC 2017的中文单文档摘要评测数据集上,该模型和基本模型进行了对比实验,验证了该机制的有效性。