论文部分内容阅读
在认知信息检索领域,丹麦哥本哈根大学图书馆学和信息科学皇家学院的情报学家Peter Ingwersen的研究具有较高的系统性与完整性,他的研究基本可以认为始于二十世纪九十年代,三十几年的不断研究从认知观、信息检索交互发展到认知信息检索交互,最终于2005年和他的研究团队确立信息查寻与检索集成认知模型,使得其认知信息检索理论趋于完善,整体主义认知观也得到了全面发展。在认知信息检索理论研究中,多元表示理论是其中一项重要的理论成果。2005年至今,Ingwersen及其团队致力于认知理论的实践研究,其中多元表示在实践研究中被高度重视,与此同时,世界上的信息检索领域、地理信息系统领域等的学者也开展了一系列与多元表示理论相关的实践研究。由于多元表示理论的应用实践尚处于初步阶段,在信息检索中关于用户需求多元表示的查询扩展及其技术创新方面还存在很大的研究发展空间。本文首先通过文献回顾综述了认知信息检索理论的起源、发展与应用,然后对多元表示理论的概念、特点、应用与发展研究进行了详细讨论。在Ingwersen坚实的认知信息检索理论与多元表示理论的基础下,本文研究从信息查寻者的认知空间的角度,即用户的角度,开展了基于用户信息需求多元表示的查询扩展信息检索实验。实验环境选择了美国卡耐基梅隆大学自然语言技术研究所以及马萨诸塞大学智能信息检索中心的联合项目Lemur。实验选取TREC 2013 Web Track的50个检索主题作为实验主题,其中主题与描述构成基准查询,使用TREC提供的相关性判断,用于对查询扩展的检索效果进行评价。实验将用户信息需求进行五个认知维度的分类表示,即目标、动力、背景知识、理想答案、用户关键词,然后通过邮件方式获取20个用户针对50个检索主题在这个五个维度表示的回答。根据用户对检索主题在这五个维度的答案描述抽取查询扩展词,在三种平滑方法下,即’Iwostage、 Dirichlet、Jelinek-Mercer三种平滑方法,将这些不同类别的查询扩展词排列组合分别用于对主题检索的查询扩展,使用ireval工具对查询扩展后的检索结果进行评价,指标包括MAP、NDCG、Bpref、P@topN等,评价不同查询扩展的检索效果。本文实验结果表明Twostage平滑方法可以获得最优的检索结果,实验结果也表明若要最大化限度地提高检索效果,需要五个维度与平滑方法的配对使用,简单来说是目标与Dirichlet平滑方法配合,理想答案和.Jelinek-Mercer平滑方法配合,目标和用户关键词分别与Twostage平滑方法配合。