论文部分内容阅读
随着互联网技术的迅速发展,网络上的信息呈爆炸式增长,给人们带来丰富信息的同时也带来了一定的困扰。面对这海量的信息资源,如何能快速而又准确地获取信息成为一个研究热点。在这种需求背景下,对信息检索中的自动摘要技术的研究显得尤为重要,用户只浏览摘要信息而不必点开全文即可做出相关性判断,方便而快捷,进而改善信息检索的效率。
互联网本身具有开放性、自由性,且人们的交互信息也呈现出电子化、海量化、网络化的特点,而Web资源大部分都是以非结构化的形式保存的,这些因素给信息检索中自动摘要技术的研究带来了极大的困扰,尤其在处理互联网中的海量信息文本时,为了能够得到更准确全面的摘要信息,自动摘要技术在选取主题句方面面临着极大的挑战。
针对现有自动摘要技术在选取主题句时准确率低的问题,本文以Web文档作为主要处理对象,研究了Web文档自动摘要技术,设计并实现了一个它的原型系统。本文主要内容的详细描述如下:
(1)研究并分析了自动摘要理论以及信息检索中所涉及到的关键技术。为了获得高质量的文档摘要,需综合分析Web文档自身特征以及检索相关技术,主要包括题材、结构等文档特征以及查询扩展等技术,这些因素有助于提高摘要质量。
(2)对传统的VSM模型进行了研究与改进。传统的VSM模型采用的是基于词频统计的方法,对文档中词语出现频率实行浅层意义上的叠加,认为高频词最能表达文章主旨,而忽视了一词多义、同义词等现象,致使信息检索时出现话题漂移现象,故为了获取能准确表达文档中心意思的词或短语,本文采用基于概念统计的方法,充分考虑了这些关键词的词性、位置以及自身长度等特征。
(3)为了得到较高质量的自动摘要,本文在基于概念统计方法的基础上,利用本体技术对查询关键词及语义上下文进行扩展,并得到用户对该查询词的语义兴趣度,进而构造出一种新的词语权重计算公式,该公式的运用可大大提高能表达文章主旨的词或短语的权重。同时在句子权重计算过程中,为避免人为主观因素的影响,采用非线性加权方法来自动调节相关词的重要程度。
(4)为使自动摘要的质量能有进一步的提高,本文在已有词语权重计算公式的基础上,考虑到文档后可能含有读者追加的评论信息,这些信息能从侧面反映出文档的主旨信息,故提出了一种面向评论的自动摘要方法,该方法综合了文档与其相关的评论信息,以便得到更能准确表达文章中心意思的概念或词,进而增大其相应的权重值以提高摘要的准确率。
(5)原型系统。在相关理论方法改进的基础上,设计并实现了一个Web文档自动摘要原型系统。