论文部分内容阅读
自动文摘是自然语言处理的一个分支研究领域,本文主要研究其众多分支中最基础、也是一直被关注的基于抽取式的多文档文摘,对多篇文档提取一个由其中核心句子组成的简短文摘。多文档文摘的对象一般是围绕预定话题、经搜集而得的多文档集合。虽然具有预定话题,但由于文档来自不同信息源,数据中常存在以下3个问题,对文本的准确表示造成影响,影响文摘的准确提取:1.主题不唯一:不同作者对话题阐述的角度不同,多文档集内可能包含除预定义话题以外的其它主题。2.词义复杂性:因作者用词习惯不统一和语言的丰富性,易混杂各种同义词,内容繁杂时会存在出现于不同主题的多义词。3.噪音现象:因文档以整篇为单位加入数据集,可能携带无关噪音内容。为此,本文引入语义分析模型、语义知识库和监督信息来改进多文档文摘的文本表示,以提高文摘系统性能。主要研究成果如下:1.提出了基于主题表示的多文档文摘方法,处理主题不唯一问题。文档集主题结构训练、句子的主题表示和句子重要度计算是其主要环节,其中:(1)提出背景训练方法训练文档主题结构,解决多文档文摘数据集较小所引起的主题结构训练准确度和稳定性问题。通过将多个文档集与目标文档集混合训练,扩大数据规模,增加词分布信息辅助训练,最后得到“训练集-主题-子主题-单词”的主题结构。实验验证了该方法能提高文摘结果的准确性和稳定度。(2)根据主题结构,提出句子的主题表示法。我们用句中单词的主题信息构建句子的主题向量,反映句子与主题的相关度。实验验证了这一表示法能准确判断混合后训练集内来自不同文档集的句子所属主题。(3)根据句子的主题表示,提出了一个多文档文摘方法。基于多文档文摘数据具有预定义话题这一特性,主题与越多句子紧密相关时,该主题越重要,同时与其相关的句子也越重要,越可能成为文摘句。实验结果显示这一多文档文摘方法可获得质量较好的文摘结果。2.提出了基于维基概念表示的多文档文摘方法,处理词义复杂性问题。概念形式与提取、句子的概念表示和句子特征计算是其主要环节,其中:(1)选择维基概念和自动维基化方法提取概念,使句子概念表示和相应文摘方法建立在较好通用性、易扩展性与长期有效性的基础上。(2)改进概念权重计算,获得句子的概念表示。通过综合概念在维基百科中的全局信息与在多文档集内的局部信息构建多文档集的概念网络,根据概念的连通性计算概念权重,得到句子的概念向量。实验观察证实了这一方法可提取到较有代表性的概念集合,达到准确表示的效果。(3)根据句子概念表示和维基百科的概念首段信息,提出一个多文档文摘方法。根据维基百科中概念的首段即为人工生成的概念文摘这一重要文摘信息,提出相应的句子特征,配合常用句子特征计算句子的重要度。实验比较证实了维基概念首段的有效性,以及基于维基概念表示的多文档文摘方法能获取较好的文摘质量。3.提出了一个基于监督的多文档文摘自动去噪器的学习方法,减少噪音。监督信息获取、特征提取和分类器训练是该方法的主要环节,其中:(1)选择以语义单位为对象,使用标准文摘提取它的类标信息。从以往对标准文摘分析的研究中,我们发现标准文摘中存在一定的原文语义单元。因此,我们根据语义单位是否在标准文摘中出现为监督信息,直观而准确的确定类标。(2)为不同频率的语义单元设计特征。实验表明有效和噪音语义单元在高、低频区都有可能存在,频率特征不足以将这两类单元区分出来。所以,我们针对高低频、同频、高低频共现语义单元分别设计相应特征。(3)使用二元分类器实现自动去噪。不同数据集的噪音分布变化较大,因此自动区分有效和噪音语义单元更符合实际的去噪环境和需求。实验表明,根据以上监督信息和特征所学习的自动去噪器,能通用于不同的文本表示和不同文摘算法,提高文摘算法的整体性能。