论文部分内容阅读
文摘是了解文档主旨要点,辅助提高决策及阅读效率的主要方式。当前,信息的爆炸式增长已远超过普通受众者所能承受、理解及利用的范畴,大量无关的、冗余的信息严重干扰了受众对有效信息的获取和消化。在此情形下,旨在实现从文档中自动过滤并筛选出有价值信息的自动文摘技术其重要性不言而喻,已成为自然语言处理、信息检索等多个领域共同关注的热点研究课题。如何有效地评估文本内容的重要性既是自动文摘研究的关键点,也是难点。传统的方法大多以句子作为重要性评估的基本单元,直接依据待摘要文档的内部信息来为句子打分。然而,这种做法忽视了自动文摘任务具有的上下文相关性,即文摘的生成并非仅由被摘要对象的自身信息决定,客观存在的各种上下文信息都可能影响到对目标文本中句子重要性的评估,甚至间接决定机器摘要的生成质量。鉴于此,在以往研究工作的基础上,为了有效地利用目标文档所具有的上下文信息,同时也为了洞察上下文在辅助句子重要性评估方面的作用,本文从以下几个方面开展了研究,提出了相应的上下文信息融合的自动文摘方法,在相关数据集上的实验结果验证了本文所提方法的有效性。1、融合内容上下文信息的自动文摘方法针对内容上下文信息的融合,本文重点开展了面向查询的多文档自动文摘研究。相对于待摘要的文档集,查询通常可被视为另一种显式的内容上下文,它用于引导摘要系统在内容选择上尽可能地贴合用户的需求。本文分别提出了两种不同的面向查询的多文档自动文摘方法。方法一从与内容上下文有关的诸因素角度考虑,基于多视图协同学习来挑选查询相关句,进而通过句子关系图上的马尔可夫随机游走模型对查询相关句打分。该方法充分利用了查询和句子的内容信息及它们之间的关系,使得生成的摘要能获得查询相关性、内容显著性、信息多样性等多方面平衡;方法二从上下文协同的角度考虑,提出了基于Co-HITS-Ranking的句子打分算法,能在统一的双层图模型下融入查询、文档等不同粒度的上下文对句子重要性评估的影响,从而实现协同句子打分。在国际公开的自动文摘评测数据集DUC及TAC上的实验结果表明:本文提出的两种方法均能有效地融合查询上下文信息以生成查询导向式文摘。2、融合使用上下文信息的自动文摘方法如今,随着社交网络的蓬勃兴起,众多用户主动参与对在线内容的反馈,并辅以评论、社会标签等形式分享和交流阅读体会。这些客观存在的真实用户的使用上下文信息能否有助于揭示目标文本中真正重要的内容,能否协助发现用户的兴趣偏好以提高摘要的生成效果是值得深入探索的科学问题。鉴于此,本文重点研究了基于社会上下文的通用和个性化自动文摘方法。为了弥补现有研究较少考虑用户以社会标签形式提供的反馈对辨析文本内容要点及大众兴趣点的影响,本文提出将用户的社会标注信息作为辅助摘要的外部信息源,通过文档、用户、标签的三方协同聚类来自动发现待摘要文档的社会上下文,进而通过上下文敏感的句子打分及融合算法从目标文档中挑选若干重要且符合用户群或特定用户偏好的句子入选摘要。在Delicious社会标注数据集上的实验结果验证了本文提出的融合使用上下文信息的自动文摘方法的有效性。3、融合使用上下文和结构上下文信息的自动文摘方法作为兼具使用上下文和结构上下文特点的数据源,学术文献促进了知识的传播和交流。然而,浩如烟海的学术文献良莠不齐,极大地增加了研究者获取有效信息的难度。在此背景下,如何快速识别并提炼出目标文献中的影响点成为了众所关注的科学问题,而学术文献的影响点自动文摘则致力于解决该问题。现有的方法大多局限于考虑目标文献的外部引文句信息,而较少对引文句所处的上下文给予特别的关注。鉴于此,本文提出了基于混合引文上下文的自动文摘方法,该方法利用多种不同的引文上下文关系(即文献间的引用关系、作者间的合作关系,以及作者与文献间的发表关系)并结合正则化框架自动推理引文上下文的影响,进而通过平滑语言模型将这种影响融入到对引文句间的关系计算中,从而协助识别目标文献中真正有影响力的内容要点。在公开的学术文献数据集上的实验结果验证了本文提出的融合使用上下文和结构上下文信息的自动文摘方法的有效性。