基于语言模型信息检索系统的研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:xbqd2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为获取信息的重要渠道和互联网的入口,搜索引擎正深入到人们日常生活之中。然而,随着互联网上web网页的绝对数量越来越多,增速也越来越快,传统搜索开始满足不了人们的对信息的需求。而近年来语言模型的出现,正是为了解决传统搜索精确率不高的问题,因此语言模型在学术研究和实际使用中成为一个新的热点。 本文主要建立了一个基于语言模型的信息检索系统,并且研究了基于本体的查询扩展方法。在相关理论技术研究的基础上,本文详细描述了语言模型建立全过程和优化过程,并分析目前查询扩展中存在的一些问题,继而引入了带语义特点的选择性查询扩展方法。本文工作的主要贡献总结如下: ·本文建立了信息检索系统,一个包含语料处理,查询处理,查询反馈等功能的系统,并且在TREC中得到实际应用。 ·本文提出了带有语义特点的基于本体的选择性查询扩展方法,并介绍了选择性查询扩展方法的大致过程及使用本体信息的过程。 ·本文在介绍语言模型等基本概念的同时,重点比较了语言模型与向量模型,概率模型在理论和应用上差别。 ·本文综合了语言模型的建立过程和优化方法及过程,形象化地描述了语言模型的”产生”概念。 ·本文通过与其它模型直接的实验数据比较,得出系统的各项指标基本上可以与现在已经很成熟的OKAPI等方法相媲美,在某些方面甚至于超过了这些方法。同时通过引入本体这个语意特征的信息进行查询扩展,进一步提高了语言模型在检索时的精确率。
其他文献
聚类分析作为机器学习领域的重要研究方向之一,吸引了很多学者的关注。在聚类分析中,距离度量是影响聚类算法精度的重要因素。在传统的聚类算法中,一般使用欧氏距离来度量样本之
近年来,由于引入了基于身份的概念,进一步简化了数字签名的密钥管理方式,允许用户自主选择公钥,而私钥由私钥产生中心根据用户信息产生。导致私钥产生中心可以伪造用户的有效
随着网络的普及与发展,虚拟社会逐渐渗透进人们的生活中,出现了很多大型社会网络在线网站如facebook、twitter、新浪微博等,人与人之间透过这些虚拟网络相互产生影响和互动。
随着信息技术的高速发展,智能人机交互系统的应用需求,人脸问题的研究作为计算机领域的核心课题之一,具有越来越广泛的实用价值和研究意义。人脸问题主要包括:人脸检测、人脸
近年来,随着人民生活水平的提高和地面交通的快速发展,城市交通系统的负荷日益加重,如何改善道路交通状况已经成为一个亟待解决的问题。致力于解决各种交通问题的智能监控系统是
随着信息技术的迅速发展,各种学科的信息也在随之迅速膨胀,人们迫切需要这些特定领域的信息检索与管理工具,特定领域文本分类成为当前研究热点。目前,特定领域文本分类主要是在传
为了加速响应联机分析处理系统中的复杂多维查询,通常需要预先计算并保存数据立方。然而数据立方的巨大尺寸却给数据立方的计算和存储带来诸多难题。为了保存数据立方不得不消
时空数据库管理系统是能够同时处理时态数据和空间数据的数据库管理系统。近年来,随着对无线网络和移动计算研究的深入和相关技术的不断发展,时空数据库管理系统逐渐成为数据
阈值法和模糊C均值(FCM)算法是图像分割算法中应用较为广泛的算法。阈值法因其算法实现简单、时间复杂度小,成为了图像分割领域中普遍使用的分割算法。阈值算法虽然有多种形
在生物信息学领域,利用计算对蛋白质折叠进行模拟运算并从中预测出蛋白质分子空间构象的方法已被普遍接受,然而模拟运算所需要的计算量异常巨大。为了应对计算能力不足的问题