基于语言模型信息检索系统的研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户：xbqd2000

【摘要】

：

作为获取信息的重要渠道和互联网的入口，搜索引擎正深入到人们日常生活之中。然而，随着互联网上web网页的绝对数量越来越多，增速也越来越快，传统搜索开始满足不了人们的对信息的

【作者】

：

楼炉群

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2006年期

【关键词】

：

信息检索查询扩展语料处理查询处理搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为获取信息的重要渠道和互联网的入口，搜索引擎正深入到人们日常生活之中。然而，随着互联网上web网页的绝对数量越来越多，增速也越来越快，传统搜索开始满足不了人们的对信息的需求。而近年来语言模型的出现，正是为了解决传统搜索精确率不高的问题，因此语言模型在学术研究和实际使用中成为一个新的热点。本文主要建立了一个基于语言模型的信息检索系统，并且研究了基于本体的查询扩展方法。在相关理论技术研究的基础上，本文详细描述了语言模型建立全过程和优化过程，并分析目前查询扩展中存在的一些问题，继而引入了带语义特点的选择性查询扩展方法。本文工作的主要贡献总结如下： ·本文建立了信息检索系统，一个包含语料处理，查询处理，查询反馈等功能的系统，并且在TREC中得到实际应用。 ·本文提出了带有语义特点的基于本体的选择性查询扩展方法，并介绍了选择性查询扩展方法的大致过程及使用本体信息的过程。 ·本文在介绍语言模型等基本概念的同时，重点比较了语言模型与向量模型，概率模型在理论和应用上差别。 ·本文综合了语言模型的建立过程和优化方法及过程，形象化地描述了语言模型的”产生”概念。 ·本文通过与其它模型直接的实验数据比较，得出系统的各项指标基本上可以与现在已经很成熟的OKAPI等方法相媲美，在某些方面甚至于超过了这些方法。同时通过引入本体这个语意特征的信息进行查询扩展，进一步提高了语言模型在检索时的精确率。

其他文献

拓扑关系的距离度量与聚类算法研究

聚类分析作为机器学习领域的重要研究方向之一，吸引了很多学者的关注。在聚类分析中，距离度量是影响聚类算法精度的重要因素。在传统的聚类算法中，一般使用欧氏距离来度量样本之

学位

机器学习聚类分析数据样本拓扑结构距离度量

基于身份无需可信中心的数字签名方案研究

近年来,由于引入了基于身份的概念,进一步简化了数字签名的密钥管理方式,允许用户自主选择公钥,而私钥由私钥产生中心根据用户信息产生。导致私钥产生中心可以伪造用户的有效

学位

数字签名基于身份双线性对私钥产生中心群管理者电子现金系统

社会网络影响力挖掘方法研究

随着网络的普及与发展,虚拟社会逐渐渗透进人们的生活中,出现了很多大型社会网络在线网站如facebook、twitter、新浪微博等,人与人之间透过这些虚拟网络相互产生影响和互动。

学位

社会网络影响力挖掘影响力强度影响力传播用户行为预测

人脸检测与跟踪技术的研究

随着信息技术的高速发展,智能人机交互系统的应用需求,人脸问题的研究作为计算机领域的核心课题之一,具有越来越广泛的实用价值和研究意义。人脸问题主要包括:人脸检测、人脸

学位

人脸检测人脸跟踪统计学轮廓特征支持向量机特征空间模型

视频运动目标阴影处理及评测方法研究

近年来，随着人民生活水平的提高和地面交通的快速发展，城市交通系统的负荷日益加重，如何改善道路交通状况已经成为一个亟待解决的问题。致力于解决各种交通问题的智能监控系统是

学位

智能交通视频监控系统运动目标阴影处理评测方法光谱比值

特定领域文本分类系统的设计与实现

随着信息技术的迅速发展，各种学科的信息也在随之迅速膨胀，人们迫切需要这些特定领域的信息检索与管理工具，特定领域文本分类成为当前研究热点。目前，特定领域文本分类主要是在传

学位

文本分类特征选择信息检索

基于同源元组的分层自索引立方组织形式

为了加速响应联机分析处理系统中的复杂多维查询，通常需要预先计算并保存数据立方。然而数据立方的巨大尺寸却给数据立方的计算和存储带来诸多难题。为了保存数据立方不得不消

学位

同源元组数据立方组织形式分层自索引

时空数据库查询处理及优化的研究与实现

时空数据库管理系统是能够同时处理时态数据和空间数据的数据库管理系统。近年来,随着对无线网络和移动计算研究的深入和相关技术的不断发展,时空数据库管理系统逐渐成为数据

学位

时空数据库最近邻居距离度量代价模型选择性估计

细菌觅食算法的改进及在图像分割中的应用

阈值法和模糊C均值(FCM)算法是图像分割算法中应用较为广泛的算法。阈值法因其算法实现简单、时间复杂度小,成为了图像分割领域中普遍使用的分割算法。阈值算法虽然有多种形

学位

图像分割最大类间方差算法最大熵算法FCM算法ABF-PSO

分布式计算平台P2HP的任务管理及蛋白质折叠

在生物信息学领域,利用计算对蛋白质折叠进行模拟运算并从中预测出蛋白质分子空间构象的方法已被普遍接受,然而模拟运算所需要的计算量异常巨大。为了应对计算能力不足的问题

学位

蛋白质折叠分布式计算任务管理机制传输协议

基于语言模型信息检索系统的研究与实现

与本文相关的学术论文