论文部分内容阅读
是自然语言处理中的一项关键技术,随着近年来文本数据的爆炸式增长,如何从大批量文本中快速获取其中的含义,进一步对其进行有效的管理,受到了广泛的关注。自动文本摘要按照具体的处理方式一般分为抽取式摘要和生成式摘要,抽取式摘要通过选择重要的句子作为文档的摘要;而生成式摘要主要通过生成、改写等方式获得文档的摘要,类似于人类大脑的知识提取。抽取式的文本摘要往往面临覆盖范围小、片面,不能很好的表达文档的整体含义;而当前的生成式摘要往往存在可读性差,且存在数据冗余、同源文档之间存在较大语义偏差等一系列问题,并不能表达文档的真实语义。为了更好的解决自动文本摘要面临的问题,论文首先从词的词表示研究入手,获得语义表达能力更强、更适合摘要的词表示;进而研究句子的句法和逻辑结构,结合注意力机制,获得文档内容的关键信息,最终实现一种句子级摘要方法,并提出了一种混合抽取式-生成式的两阶段摘要方法,能够对文本数据进行科学的分析和处理,具体的研究从以下4个方面展开。(1)提出了一种细粒度的词表示方法。表示学习是进行自然语言处理的一项基础工作,也是进行后续自然语言相关任务研究的一项关键工作。针对文本摘要的特点,本文通过研究结合词性、位置等特征信息,构造了一种新颖、细粒度、表示能力更强的词向量表示方法,并结合<词,词性>词向量的二维表表示,从而降低了词向量查找表的大小,提高了查询效率,实验表明本文提出的方法有更好的文本语义表示能力。(2)提出了一种融合词向量和依存句法结构的句子级相似度比较方法。句子是自动文本摘要处理任务中的基本单位,一个有意义的句子必须符合某种语言的句法结构,因此在比较两个句子时融入句法结构具有重要的意义。本文通过研究句子中词的依存关系,利用基于弧变换的依存句法分析构建句子的依存句法树,结合句子中词的依存句法关系,划分成不同的句法成分块(如主语块、谓语块、宾语块等),并结合预处理、被动翻转、规范化句法成分块等方法,利用注意力机制构建句法块向量;根据构建的句法块向量,拼接组合成句子级向量。实验表明本方法构造的句子级向量有较好的句子表示能力。(3)提出了一种基于依存句法和TreeLSTM的句子级摘要方法。在前两部分研究的基础上,根据输入句子中单词之间的依赖关系,划分成不同的依存句法块;结合输入和输出摘要句之间句法块的“硬对齐”机制和句法块内的“软对齐”注意力机制,使用Tree-LSTM网络进行训练获得模型参数,最终构造出句子级文本摘要。由于采用依存句法树块,保证生成句子的句法成分符合句法关系,可读性更好,“硬对齐”机制可以防止长句中的句法结构成分出现偏移,而使用“软对齐”机制可以增加句法块中新单词生成的灵活性。最后通过实验验证了本方法的可行性。(4)提出了一种混合生成式和抽取式的两阶段文档摘要方法。生成中的一些问题,本文充分结合两种摘要方式的优点,提出了一种混合生成式和抽取式的两阶段摘要生成方法,第一阶段通过结合句子相似度矩阵或“伪标题”抽取出文档的一些重要句子,该方法充分考虑句子位置、段落位置、句子关系等显示和隐式特征对文档进行粗粒度句子抽取,并同时考虑句子的差异化;第二阶段是生成式摘要,对抽取出的这些句子使用Beam搜索算法对这些句法块重组并改写生成新的句子,作为下一阶段文档的“伪标题”,循环执行第一步和第二步,直到获取整个文档最优的“伪标题”,满足最终条件的“伪标题”作为文档最终的摘要。在相应的英文和中文数据集上进行了广泛的实验,实验表明该方法能够获得较好的摘要结果。