论文部分内容阅读
单篇科研文献文档摘要自动生成在信息检索中具有重要意义,可以为大规模信息检索提供简要信息提示。无监督抽取式摘要生成是文本摘要研究的重要任务,旨在从原文中依据各种文本语义特征,提取关键性句子作为简单摘要。 本文基于科学文献文档组织结构信息来建立单篇文档结构关系图,设计图模型算法对句子进行权重排序,提取重要的句子作为摘要。人在科学文献写作的过程中往往以一定的文本组织结构组织文本内容,有助于展示文本的内容层次,便于读者阅读。文本结构大体上包括句子、段落、章节。不同粒度的结构单元之间存在一定的包含依赖关系。本文研究借助段落、章节、句子和词的结构关系来提升句子排序计算效果,主要工作包括: 1)将文本结构表示成语义链网络,对文本中不同结构单元之间的部分-整体关系进行分析,给出了部分和整体之间互相作用的假设,在此基础上提出基于文本层次结构的层次迭代权重计算模型。 2)通过改变迭代方式、选取不同文本结构关系矩阵中的元素以及上下文范围计算方法,设计了六种层次迭代模型的变形。分析了上下文范围不同对词权重的影响,以及对整个句子排序结果的影响。找出了较优的上下文范围控制模式以及结构关系矩阵元素模式。 3)通过实验将层次迭代模型与经典抽取式摘要生成方法在句子排序和文本摘要任务上的结果进行系统地比较,探索不同方法对句子长度的偏好,分析了不同方法在不同类型文档上对于概括性句子的抽取能力。结果表明本文所设计方法具有较好的适应性、灵活性和扩展性。