论文部分内容阅读
信息检索的出现使得人们获取信息的效率得到了较大的提高,信息检索的其本质是用户需求与文献集的匹配过程,用户将需求通过初始查询式的形式表达出来,根据某种检索模型在检索系统中查找自己所需的信息,也就是说,信息检索是个用户需求与检索对象相匹配的一个过程,本质是种相关性检索。在21世纪之前,学界对于信息检索的研究侧重于系统观的相关性,通过对检索系统的检索机制、信息源的组织形式和相关性评级算法的探讨以期能提高信息系统的检索性能。随着科技和社会发展,尤其是最近几年人机互动和智能检索的兴起,信息检索中人的作用越来越受到重视,以人为本的相关反馈在未来应该是信息检索的主流,学者们对信息检索中相关性的影响因素和提高技术开始进行深入的研究,典型的有相关反馈技术。影响相关性的因素多种多样,学者们进行了广泛的摸索,用户决定了查询式的质量,查询式依赖于用户,因此用户是相关反馈的最重要影响因素。信息检索系统的核心是相关性评价,在相关反馈中,用户是相关性评价的主导,这个评价过程受用户自身和情境影响,主观性很强。在信息检索领域尤其是在国内,针对信息检索系统的查询扩展研究较为成熟,但是基于用户的相关反馈研究比较少,且目前为止还大部分研究还是基于理论,对相关性影响因素的实证研究较少。鉴于此,本文综述了目前国内外的信息检索优化技术和相关性研究现状,归纳了相关性定义、评价、影响因素和提高技术,重点介绍了用户相关反馈技术,并建立了一个信息检索系统,采用国际标准五大测试集Cranfield, Medline, CISI, NPL和CACM作为语料库,并建立索引,将广为应用的向量空间模型作为信息检索模型,利用TF-IDF算法计算权重,检索系统采用改进的计算公式Ide Dec-hi优化查询向量,在此平台上运行了三部分信息检索实验,第一部分没有相关反馈,用户不需要参与反馈,输入检索查询式后,检索系统输出检索文献集,这个部分作为BASELINE,检索结果作为参照基准;第二部分基于相关反馈,检索系统输出检索结果后,用户需要判断排在前面的N(参照Salton和Buckley的实验,N值取15)篇文献哪些是相关文献和不相关文献,然后进行二次检索,检索系统根据用户反馈的结果,利用Ide Dec-hi算法重新计算文献集和查询式的相似度,再将检索结果反馈给用户,这部分是为对照组。第三部分基于相关性判据集和相关反馈,类似于第二部分,不同在于用户在进行相关性判断时不是随性的,而是根据既定的判断依据来,此部分即为实验组。本文试图通过实证研究证实相关反馈技术和依据相关性判据集对提高相关性具有良好的效果,并提出了本文的不足和后期研究应该做的工作。