论文部分内容阅读
随着Internet的高速发展,网上的信息急剧增长。如何快速在这海量信息中搜寻所需要的信息、获取有用的主旨,已经是一个迫在眉睫的问题。文摘作为文献内容的缩影,其简洁性、准确性和清晰性使其成为挖掘有用信息的有效方式。传统手工编制的文摘,生产方式效率低,难以满足快速信息检索的需要。而利用计算机和人工智能技术实现的自动文摘,易于信息的检索和再处理,已成为时代的要求。本文就对中文自动文摘及评价方法进行了系统的研究,具体研究内容包括以下三个方面:1、设计了一种新的基于骨架依存的句子相似度计算方法在自然语言处理领域,句子相似度计算是一项应用非常广泛的技术,并且发挥着重要的作用。本文在综合分析现有句子相似度计算方法的基础上,提出了一种新的基于骨架依存的相似度计算方法。该方法是在句法分析的基础上进行词义的相似度比较,并且考虑了否定意义副词对句子相似度的影响。它能够更准确的反映句子之间的语义相似度关系,是一种适合文摘的句子相似度计算方法。2、提出基于多特征融合的中文自动文摘方法并实现自动文摘系统自动文摘经历了五十多年的发展,已存在着许多种不同的方法,但其效果都不尽如人意。所以,本文在分析自动文摘现有方法的基础上,提出了基于多特征融合的中文自动文摘。它是将统计、语义、结构信息用特征来表示,并采用机器学习的方法对这些特征进行训练得到摘要器,然后通过可读性加工提高连贯性和消除冗余信息,生成了质量较好的摘要。该方法能克服摘录式文摘缺乏语义和结构分析的缺陷,又能弥补理解式文摘领域受限的遗憾。3、提出了基于文本相似度的自动文摘评价方法系统评价是自动文摘系统中一个非常重要的环节。一方面,系统评价可以验证系统的有效性、可用性和可理解性;另一方面,系统评价产生的结果可以反馈到不同处理阶段,这一过程可以促进系统性能的提高。本文总结了内部评价方法的缺陷,提出了一种基于文本相似度的自动文摘评价方法。该方法是把机器摘要与标准文摘(或专家摘要)进行文本相似度比较来获得系统的性能值。这三方面的研究内容是一个完整的体系,基于多特征融合的自动文摘方法是核心,基于文本相似度的自动文摘评价是验证,而相似度算法是两者的重要内容。