信息检索系统的结果鲁棒性关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:moli2146
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索系统使用日益复杂的模型及技术寻求改进检索结果的质量,在所有查询上取得了更好的平均检索性能的同时,某些查询可能会得到远远差于基准结果的检索结果,这些难以预期的检索性能下降,将大大降低检索用户对系统的满意度。本文的研究目标是最大化信息检索系统平均检索性能的同时,相较于基准的检索结果,最小化个体查询结果质量下降的风险,即检索结果具备较好的鲁棒性。  本文针对信息检索系统的结果鲁棒性问题进行了深入的探讨,主要的研究成果包括:提出了一种用来评价多个检索结果的排序的鲁棒性指标。  各种检索模型与技术在不同的查询之间存在一定的互补性,为了利用多种模型及技术的不同检索结果实现优势互补来获取鲁棒的检索结果,本文提出了一种针对多个检索结果的排序的风险规避僮(Risk-Averse,RA)评价指标。该指标从相对性能好坏的角度评价多个检索结果的排序的鲁棒性,对更好地实现优势互补具有重要指导意义。  提出了基于带权邻近度度量的检索结果平均性能最大化方法。  为了最大化检索结果的平均性能,本文提出了带权邻近度度量(Weighted Proximity,WP)方法。该方法不仅考虑了查询词项之间的相互联系,而且对它们的重要性进行了量化。通过为各查询词项赋予不同的权重,能够抓住重点,更快速更准确地度量词项邻近度信息。该方法具有概念简单且计算复杂度低等优点,而且能够无缝地应用到大多数信息检索模型当中。实验结果表明,该方法所能带来的平均检索性能提升幅度远远超过当前最好的词项邻近度度量方法之一CRTER。应用了该方法的模型能够显著地提高检索结果的平均性能。  提出了基于鲁棒检索排序算法的检索结果个体风险最小化方法。  为了在平均检索性能最大化的基础上最小化个体查询结果质量下降的风险,本文引入更多的已有模型,提出了基于查询性能预测的鲁棒检索排序算法(Robust RankAlgorithm)。该算法以风险规避值最大化为优化目标,学习查询性能预测模型,然后利用该模型对多个检索结果进行排序,根据排序得到最终的检索结果。实验结果表明,与当前最好的检索算法之一LambdaMART相比,该算法在取得了与LambdaMART几乎一致的平均检索性能的同时,显著地减小了个体查询性能下降的风险,使得检索结果具备了较好的鲁棒性。
其他文献
信息技术的飞速发展引发了人类生活方式的巨大转变,RFID、穿戴式传感设备、智能家居等新技术的普及加速了物理世界和赛博空间的融合。三元计算理论是在这一背景下出现的新型计
自1950年图灵测试提出以来,问答系统一直是人工智能领域研究的重要课题之一。相对于英文问答系统的迅速发展以及语义信息处理技术的广泛应用,目前语义分析的方法在汉语问答系统
语音识别噪音场景库的建设对于语音识别技术及评测技术都具有重要的研究意义.噪音场景库的设计包括对噪音场景进行分布估计、聚类分析、自动分类等流程.本文首先用统计学的抽
近年来,流媒体在互联网上大量应用。然而,媒体的质量并不让人满意。主要是由于传统C/S模式过分依赖媒体服务器的性能和带宽。于是,研究人员想出了很多的解决办法。其中比较有代
学位
土地评价是土地利用与规划的关键步骤,是土壤科学研究的主要内容之一。土地评价一直是一个较为复杂的问题,不同地区对农业生产具有不同的影响因子,各影响因子对不同的生产目标又
互联网作为一种交互式媒体,被越来越多的人用来表达自己的观点和态度。这些带有倾向性的主观性语言集中在Blog、论坛和留言之中,包含有大量信息,自动挖掘其中的观点和态度,具有十
科学数据网格是在中国科学院科学数据库海量数据资源的基础上,利用先进的数据网格技术,连接分布在全国四十多个研究所而建设的一个面向大规模分布式异构数据资源的共享平台和应
学位
随着计算机网络性能的不断改进以及虚拟现实技术的广泛应用,越来越多的工程协作编辑以及军事仿真演练系统都开始依赖于虚拟仿真平台。如何构建一个能够适应在目前网络条件下实
近年来,随着大数据时代的到来,构建面向开放网络的知识库已成为国内外工业界和学术界研究的一个热点。虽然目前国内外多个研究机构建立了很多知识库,但是这些知识库对开放网络的
网络技术的高速发展与普及使其成为信息交互的主要手段。随着网络规模的渐大,接入网络中设备的数量和种类也随之越多,然而,这些资源并没有得到充分的利用。如果能有效地利用这些