论文部分内容阅读
用户在检索信息时通常采用输入一些关键词的形式,在初次检索时输入的关键词往往不够具体,并且这些关键词所能够反映的信息量是有限的。再加上用户对信息检索系统的熟练程度不同,因此在初次检索时用户往往不能很确切地表达自己的查询意愿。针对这一现状,众多学者展开了对查询优化技术的研究。由于遗传算法本身的鲁棒性、自适应性、隐含并行性和强大的搜索能力,在查询优化方面广为使用;相关反馈技术是查询优化常用的另外一种技术,它已经在查询优化领域显示出了其优异的性能。因此,本文采用向量空间模型(VSM)作为检索模型,首先尝试了采用遗传算法进行查询优化,直接得到最优的查询,取得了较为明显的优化效果;然后又结合相关反馈技术,对遗传算法的用途作了调整,提出了新的基于遗传算法和相关反馈技术的查询优化方法,能够进一步提高查询优化的效果。本文的主要研究内容及取得成果如下:首先,研究了遗传算法在查询优化中的作用。在分析当前几种典型的应用遗传算法的查询优化方法的基础上,通过改进适应度函数和遗传操作算子,设计了一种新的基于遗传算法的查询优化方法,用于求取优化的查询向量。新方法能够提高查询优化的效果。进而,探讨了遗传算法和相关反馈(relevance feedback)技术的结合对查询优化的作用。通过分析传统相关反馈技术对查询优化的作用,并巧妙地将它和遗传算法相结合,提出了一种基于相关反馈和遗传算法相结合的查询优化方法。我们引入了查询修正向量的概念,利用上述遗传算法求取查询修正向量,并结合初始查询和相关反馈形成相对较优的查询向量,该方法进一步提高了查询优化的质量。最后,对方法的有效性进行了较为广泛的实验验证。我们采用国际上著名的五种标准测试集(Cranfield,Medline,CISI,NPL,CACM)对文中提出的查询优化方法进行有效性验证,与当前部分典型的相关查询优化方法进行了比较。实验结果表明,我们提出的方法效果显著。我们的研究工作是对查询优化的一个尝试,可以在一定程度上改善当前Web信息检索系统查准率不高的状况,具有重要的学术和应用参考意义。