论文部分内容阅读
多文档自动文摘技术是对内容相关的多篇文章进行分析,并根据它们所描述的主题脉络或用户的兴趣导向来抽取出重要的信息或用户感兴趣的信息,并自动生成一篇指定长度的文摘。作为集成语言学、计算语言学、人工智能、信息系统等多门学科的应用技术,多文档自动文摘的研究对于推动上述领域技术的发展有着重要意义;同时,一个可行的多文档自动文摘系统对于加快人们对网络信息的处理速度与准确率具有重要的实际应用价值。为此,本文进行了基于话语结构的通用型多文档自动文摘的研究,首先从各级文本单元的话语关系研究入手,研究跨文本单元的相似关系识别、文本时间信息抽取以及事件的时序关系识别、文本内部修辞结构识别以及文本集合的层次主题的识别等,并提出了基于修辞结构理论的多文档表示结构(Multi-document Rhetorical Structure,简称MRS),该结构通过系统地描述不同层面的文本单元之间的相互关系,以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现并行融合,在此基础上,进一步研究基于MRS的文摘句抽取、排序、冗余消除、文摘生成等一系列算法。本文的研究主要包括以下内容:第一,本文对汉语时间信息的获取以及时间语义计算进行了研究,并在此基础上研究了时间推理以及事件时序关系识别。文本中的时间信息在多文档结构中节点位置的确定、多文档自动文摘中的关键事件识别、事件排序以及文摘句的内容重组方面具有重要的意义,本文根据中文文本时间信息表达的特点,将承载时间信息的短语按照功能的不同分解成若干容易识别、并且语义单一的“小”的成分,并按照结合规则来组合这些元素成为时间表达式。由于这些元素本身具有时间语义属性,因此在结合的过程中就可以计算最终时间表达式的时间语义值并计算表达式之间的时序关系。第二,不同文章的片段之间存在着语义相似关系,这种重复信息是多文档自动文摘的重要来源。由于这种片段间语义相似度计算不能简单地沿用全文相似度计算方法。因此本文提出一种基于多特征融合的片段相似度计算方法。方法充分采用多特征融合思想尽可能多地挖掘片段内的词法、语法、语义特征,并采用机器学习方法自动融合这些特征。从而避免了传统的以词或概念为基本元素的单一的文本表达所带来的信息匮乏、区分性不强的问题。在特征融合方面,本文采用累积logistic回归分析模型来自动拟合各个特征同最终的片段相似度之间的关系。该模型不但具有较好的拟合特性,而且不受特征数量的限制,可以很方便地从模型中添加新特征或删除已有特征,具有较强的扩展性。第三,主题自动识别是多文档自动文摘的一个关键技术,本文通过对文本集合的主题分布以及主题的范围分析,提出了层次主题的概念,采用层次树状的主题结构来代替传统的单层主题集合。我们认为这样的划分更加能够反映原文档集合的本来面貌。为此,我们采用层次聚合聚类方法来建立文本集合的层次主题树,并采用样本密度曲线角点识别方法来自动获得聚类终止阈值。通过多文档自动文摘结果评测显示层次主题的引进可以有效地提高文摘质量。第四,对于基于结构的文摘技术来说,建立合理的形式化表示结构是后续研究工作顺利进行的基础。Dragomir R. Radev介绍交叉文本结构理论(Cross-Document Structure Theory,简称CST)时提出了两个基本数据结构:多文档立方体和多文档图,前者描述了文本单元之间的时序关系;后者描述了不同层面的文本单元之间的逻辑关系。这两个结构需要互相补充,互相支撑,才能完整地表达出文档集合的真实面貌。本文借鉴了CST的思想,提出了一个多文本修辞结构(MRS),并在此基础上提出了候选文摘句的抽取、文摘句排序及文摘生成等一整套算法。MRS由代表语言单元的节点和代表语言单元之间相互关系的连接弧按照特定的方式结合而成;单元之间的相互关系包括文档内部的修辞关系和文档间的语义相似关系,前者决定了文本单元在文章中的地位,后者体现了节点与文档集中的其他节点的相关程度,另外文本单元的时间信息确定了文档集描述的事件流的发生及演变时间。因此,综合考虑这三方面因素就能最终确定文本单元在文档集中的重要程度。最后,本文建立了一个多文档自动文摘系统的定量评测体系,在标准评测语料标注方面采用标准文摘句集合来替代单一的标准文摘句,提高了文摘准确率和冗余度评测结果的合理性。实验研究显示,基于MRS的多文档自动文摘系统可以获得较高质量的文摘。