基于数据集特征的伪相关反馈中平衡参数自调节方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:myrost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网上文本数量呈指数级增长,如何有效检索这些海量信息成为当前重要的研究课题。文本信息检索是处理海量文本的重要手段。文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。面对庞大的文本信息,各种检索模型被相继提出,而其中最有效的一种就是伪相关反馈(PRF)模型。伪相关反馈已经被证明是一种有效提高文本检索性能的方法,并且被广泛使用。对于伪相关反馈来讲,如何选择原始查询与扩展查询词之间的平衡参数是一项重要但却困难的工作。传统方法中,平衡参数在不同的数据集和不同的查询词中通常被设置成相同的经验值。然而由于数据集之间、查询词之间都各不相同,为了提升检索效果,该平衡参数应该有所不同。近期有研究提出了基于机器学习的方法,通过分析基于查询词和反馈文档的特征来预测该平衡参数。本文中,考虑到数据集的差异同样会影响到平衡参数的选择,我们提出了基于数据集的三类特征,包括查询词的信息含量,反馈文档和扩展词的可靠性。本文基于上述三大类特征,通过逻辑回归和交叉验证的方法,自适应的预测伪相关反馈中的平衡参数。首先分析了研究背景意义、国内外研究现状以及主要探究内容;接着介绍了文本信息检索、检索模型等信息检索的相关知识;之后详细介绍了伪相关反馈的相关技术;在详细描述了三大类特征之后,介绍了整个实验的流程以及实验结果。实验结果表明我们提出的方法与之前的研究相比,在提高检索性能方面有着一定的优势。
其他文献
高性能CPU 是国家技术实力的象征,拥有自主知识产权的CPU 对国家的经济、军事及安全具有重要意义。正是基于这个原因,本人在深入了解CPU的工作原理和设计方法的基础上,确定了具
信息技术的迅速发展和应用的日益广泛,使计算机软件的重要性与日俱增。同时,随着软件规模的日益庞大,软件需求越来越复杂。因此,在软件开发过程中,需求变更成为必然。目前,软
学位
语义Web服务是基于本体的新一代Web Service技术,开放式的服务结构则是电信网络提供服务能力一种新方式。结合语义Web服务与电信开放服务框架,为电信领域构建一个以用户为中
随着数据收集和数据存储技术的发展,多模态数据广泛存于各种应用场景当中,如何对这些数据进行高效的分析是机器学习研究领域的热点问题之一。在处理多模态数据时通常会遇到维
在数据库应用系统中,查询速度的快慢直接影响到应用系统的生命力。数据库用查询计划表示查询优化器选择的查询优化策略,查询计划的好坏直接影响到查询速度的快慢。本课题将基于
子图匹配(Basic Subgraph Pattern Matching)是RDF图数据管理中的一种基本查询类型,又称子图同构(Subgraph Isomorphism),是一个NP-Complete问题。随着语义网的发展和开放链
目前,互联网络飞速发展,各种网站在成倍的增长。伴随着网站的高速发展,网站建设不可避免的存在着很多问题,例如迷路,信息查找困难,页面设计太花哨、事件处理过程繁琐等,这给人们浏览
在工业设计和制造中,经常需要对已有的物体或部件进行数字化,并建立相应的数学模型:首先通过扫描设备对物体模型进行信息采集,得到一系列包含各种信息的空间数据点,即点云模
随着高性能计算、科学计算的深入发展,集群系统越来越受到重视。集群系统具有低成本、高性能的特性,提供了强大的批处理和并行计算能力,代表了高性能计算机发展的主流方向。