论文部分内容阅读
由于现在的搜索引擎大都是基于关键词检索的,很多时候用户并不能只用几个关键词来很好的表达自己的检索需求,而此时使用自然语言却能够很好的表达他们的检索需求,因此,这就需要搜索引擎必须能够懂得自然语言,或者至少要能够从用户的自然语言检索需求里抽取出系统能够使用的检索式。
本文从自然语言处理出发,总结了自然语言处理技术和web信息检索技术,并分析比较了常用的三种检索模型(布尔检索模型、向量空间检索模型和概率检索模型)的优缺点,提出了基于互信息和相对共现度的汉语分词方法,对传统的向量空间检索模型和广义向量空间检索模型进行了改进,最后通过随机从互联网上选择了9张页面,人工对这些页面进行了分词和标引,并人工对标引词计算了它们在各页面中的权值,最后使用改进的传统向量空间检索模型和广义向量空间检索模型分别计算了查询和这些页面的相关度,结果证明改进的传统向量空间具有很强的实用性。