论文部分内容阅读
Internet的飞速发展为用户提供了丰富的信息资源,同时也促进了信息处理技术的崛起。通过信息处理技术,可以帮助人们更加有效地组织、总结和分析网络上的各种资源。而这当中,信息的智能检索与自动摘要技术最为关键。检索技术是人们获取所需信息的有效途径。而自动摘要技术则可以减轻用户的阅读压力,帮助他们提取主要的相关信息;该技术有利于信息的检索和再次处理,其信息表现的简洁性、清晰性是信息挖掘的有效手段。本文重点研究了面向查询的多文档自动摘要技术。它是自然语言处理领域一个新的研究热点,旨在根据用户的查询,将检索到的相关信息以简洁、准确的摘要形式呈现给用户,帮助他们判断和浏览感兴趣的内容,提高信息获取的效率。结合目前研究状况,在综合分析查询信息和相关文档集合主题的前提下,设计并实现了一个面向查询的多文档自动文摘系统。主要的研究工作如下:1.提出了一种多特征融合的文摘句选择方法。面向查询的多文档文摘要求能满足查询的需求,同时代表相关文档的主题。针对这一特点,综合挖掘句子与查询的关联特征以及句子全局关联特征,对其进行重要性分析。这样一方面可以保证文摘句与查询的高度关联性,同时兼顾了文档主题。最后,通过采取一种基于改进的MMR方法挑选文摘句,减少摘要的冗余信息。随机实验表明:其有效性在整体上优于只依赖句子重要性的选择方法。2.在文摘句选择过程中采取了两种优化策略:为了获取句子与查询的关联性,采用了基于概念的句子表现形式;通过构建语义图,挖掘句子的全局关联信息,其优势在于可以更加准确、直观地判断节点的全局特征。通过DUC 2005年数据集上的评测,比较了两个特征在不同的融合比例下对文摘质量的影响。3.实现了一个基于查询的英文多文档自动摘要系统。在预处理阶段,综合了词干化处理,指代还原,同义词合并等技术,提高了句子在表现形式上的有效性。在检索阶段,采用了基于密度分析的排序方法。最后在测试阶段,从实验语料库的构建到评测方法的选取均做了相应的尝试,不但验证了本文方法的可行性,还为结果分析奠定了良好的基础。