论文部分内容阅读
随着互联网的发展及社会信息化的发展,信息呈爆炸式增长,人们对信息获取的要求越来越高,不断推动信息检索技术的发展。当前主流商用搜索引擎仍然采用基于关键词查找的方式。这种查找方式在给用户提供一种简便查询平台的同时,也给人们返回了大量与查询意愿无关的垃圾结果。因此,有学者提出使用查询扩展的方法来解决这个问题。查询扩展是在原查询词的基础上加入相似或相关的词以克服自然语言的“二义性”问题,改进查询意愿的描述。传统的查询扩展技术虽然在技术上有不断的改进,但是仍然以单个查询词为中心进行扩展,忽略了查询概念语义之间的关联扩展,因而没有充分表达和扩展出用户查询意图。近年来,语义概念查询扩展成为新的热点,就是在语义词典/领域本体的基础上构建概念语义空间,从概念语义空间中提取查询语义及其语义关联,实现语义概念扩展。这种扩展在一定意义上实现了语义层次的扩展,但过于依赖完备的语义体系,导致许多与用户查询意愿不相关的词的加入,从而容易出现查询漂移的问题。针对现有查询扩展存在扩展词质量不高的问题,本课题在前人研究成果的基础上,利用语义词典和文档集两种扩展源,在语义空间的基础上引入统计模型对查询词进行扩展。本文的研究工作主要包括以下几个方面:1.语义词典、领域本体等知识体系已经成为智能化信息检索不可或缺的支撑工具。在传统构建语义森林的基础上,提出了向上溯源查找最近公共祖先结点的方法,构建出覆盖面全、冗余度低,结构合理的概念语义空间;2.在对查询扩展进行范围控制的过程中,本课题提出了动态观察窗口加权模型,用于强化共现词之间的关联度。在大规模文档集中使用动态观察窗口加权模型对初始查询扩展词进行训练,动态设定显著性阈值,筛选出最终的查询扩展词;3.最后,本课题利用文本检索会议TREC(Text REtrieval Conference)提供的测试数据集设计并实现了实验系统,将实验结果转化为相应的算法测评指标MRR(平均倒数排名),通过对比可得,本课题提出的结合概念语义空间与动态观察窗口加权模型的扩展算法比传统伪相关反馈法的扩展效果有了较大的提高,从而提高了信息检索质量。本课题实验数据使用TREC(2005)会议的FR (Federal Register)部分,总计395M。这些数据中包括待检索文档56110篇,原始的查询文本50条与50条原始查询文本对应的目标文档号。所有实验数据均为来自TREC会议的标准数据集,从而保证了实验的客观性。