论文部分内容阅读
作为获取信息的重要渠道和互联网的入口,搜索引擎正深入到人们日常生活之中。然而,随着互联网上web网页的绝对数量越来越多,增速也越来越快,传统搜索开始满足不了人们的对信息的需求。而近年来语言模型的出现,正是为了解决传统搜索精确率不高的问题,因此语言模型在学术研究和实际使用中成为一个新的热点。
本文主要建立了一个基于语言模型的信息检索系统,并且研究了基于本体的查询扩展方法。在相关理论技术研究的基础上,本文详细描述了语言模型建立全过程和优化过程,并分析目前查询扩展中存在的一些问题,继而引入了带语义特点的选择性查询扩展方法。本文工作的主要贡献总结如下:
·本文建立了信息检索系统,一个包含语料处理,查询处理,查询反馈等功能的系统,并且在TREC中得到实际应用。
·本文提出了带有语义特点的基于本体的选择性查询扩展方法,并介绍了选择性查询扩展方法的大致过程及使用本体信息的过程。
·本文在介绍语言模型等基本概念的同时,重点比较了语言模型与向量模型,概率模型在理论和应用上差别。
·本文综合了语言模型的建立过程和优化方法及过程,形象化地描述了语言模型的”产生”概念。
·本文通过与其它模型直接的实验数据比较,得出系统的各项指标基本上可以与现在已经很成熟的OKAPI等方法相媲美,在某些方面甚至于超过了这些方法。同时通过引入本体这个语意特征的信息进行查询扩展,进一步提高了语言模型在检索时的精确率。