信息检索查询词权分配方法的研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:yang759152944
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网的发展使得人们可访问的信息资源越来越多,远远超过了人工筛选的处理能力,人们迫切的需要一种能够快速准确地为其找到所需信息的手段。信息检索这个研究领域正是应此需求而诞生的。信息检索所关心的问题是:信息的表达,存储,组织与获取等方面的问题。本文主要从信息检索中的查询(Query)的表达方法入手来对信息检索技术加以研究。现在的搜索引擎,对于短查询(Short Query)的检索效果一般来说比长的查询(Long Query)要好。这主要是由于当今的大多数搜索引擎将查询中的查询词(Term)以相同的重要性来看待,这使得在最终的检索结果中,倾向于Query中不重要的Term的文档同样会得到很高的排序(Rank)得分,从而导致真正与查询有较强的语义相关性的文档排到后面,最终影响检索性能。本文正是立足于传统方法在这一方面的不足进行研究的,力图寻求一种方法来确定Query中各Term在用户信息需求(InformationNeed)的表达中所起的重要性,并利用不同的Term具有不同重要性这一特点,通过在检索阶段对它们区分对待来提高最终的整体检索效果。   本文的基本思想是,对于自然语言所构成的查询,查询词的重要性在语言的组织结构本身中就有很强的体现,也就是说,我们可以利用这些信息来估计查询词的重要性。本文中所用到的核心方法为隐马尔可夫模型(Hidden MarkovModel,HMM),我们将在文中详细讨论使用该模型进行权重分配的好处,并通过大量的实验对比不同阶次的马尔可夫模型在Term权重分配上的效果,最终得出最优的方法。实验结果显示,我们的方法可以准确的将大部分Term分配到其相应的权重级别。同时,我们发现,即便我们线性地将这些离散的权重级别映射到实数域的权重上,我们依然可以在最终的检索结果中观察到一致的具有统计显著性的性能提升。总之,大量实验证明本文中所采用的方法是有效的。
其他文献
游客在大型景点旅游时,在没有导游的情况下,景点的文化可能会得不到全面的解说,游客遇到的困难也可能无法得到有效的帮助。基于此,本课题根据手机已有的GPS技术功能,同时在现
本文针对在智能电网数据集成中出现的由于数据异构原因产生的“信息孤岛”问题,将XML和本体技术结合起来应用在电力系统中,采用基于B/S的三层体系结构,以中间件的方式来解决电力系统的异构数据集成,从而实现对各个分布式数据源的透明访问和集中管理。首先,通过运用电力系统实例分析了现有的基于关系数据库构建本体方法在概念提取方面的不足之处,并对其加以改进,然后通过数据验证了改进后方法的可行性和高效性,并在一定
随着Internet和信息技术的飞速发展,信息过载变得越来越严重,由此推荐系统应运而生。在推荐系统所采用的技术中,协同过滤是最为成功的技术。但是伴随着应用范围的扩大和应用
随着科学技术的发展和人们生活水平的提高,数字图像处理技术被应用到人们生产生活中的各个领域。这使得数字图像处理技术成为近年来科学家研究的热门领域,图像修复技术是数字
计算机博弈作为人工智能领域的一个重要分支,得到了极其快速的发展。计算机博弈是一个有关对策和斗智问题的研究领域,属于人工智能中的问题求解与搜索技术。博弈的核心思想实
随着信息技术与网络技术的高速发展,嵌入式系统正越来越广泛地应用于科学研究、军事技术、工程设计、消费类电子等方面。嵌入式系统的研究内容涉及到计算机学科的各个方面。
随着计算机技术的迅速发展,计算机在教育中的应用已经成为改革我国教育方式和教学方法的重要手段。计算机辅助教学就是利用计算机强大的信息处理、显示、控制和传输功能,特别
传统审计方式很难发现隐藏于海量数据中的各种财务问题,本文以学科交叉的思维,综合运用数据挖掘技术、基于专家知识的故障诊断理论和财务审计理论,开发出了一个能够处理多种数据类型、自动发现审计线索的智能化财务审计系统。本文主要研究内容如下:(1)财务报表审计分析模型研究。将基于专家知识的故障诊断理论运用于财务审计领域,通过建立整体审计分析模型发现重点审计对象及疑似故障点,结合重点分析模型和个体分析模型对财
学位
本文选择TI CC2530设备为实验平台,且设计和实现作物环境信息参数监控软件。为降低数据冗余带来的网络流量,本文在终端节点实现自适应加权数据融合算法,并给出严格的推导过程
运动捕捉(Motion Capture)是计算机视觉领域的基础研究课题之一,旨在基于多个不同视角的同步相机阵列恢复人体运动过程中的三维模型和细节特征,在虚拟现实(Virtual Reality)