论文部分内容阅读
互联网的快速发展导致了互联网上的信息量与日俱增。如何从互联网上获取用户所需要的信息已经成为了一个热门问题。在这个背景下,信息检索技术发展起来了。针对信息检索中,文档和查询之间的词不匹配问题,大量的研究显示基于查询扩展的相关反馈是这个问题的一个很好的解决方案,并且能够很好的提高信息检索系统的性能。大部分传统的查询扩展算法都假设初始检索结果集中排序靠前的N篇文档是相关的,然后利用这些文档作为反馈文档集来进行查询扩展获取扩展词。然而,这些反馈文档中包含着大量的噪音,很有可能使生成的新查询偏离查询主题,导致查询漂移。文档聚类可以将初始检索结果集中相关的文档聚集在一起,从而可以从中找到相关的文档,去掉不相关的文档,获取更好的反馈文档集。同时大部分传统的查询扩展算法是基于反馈文档集中索引词的权重来选取扩展词。这种做法并没有很好的考虑反馈文档集中索引词和查询之间的关联性,很有可能获取到与查询主题不相关的扩展词,影响到扩展词的质量,进而对信息检索的效果产生负面影响。局部共现技术通过计算反馈文档集中的索引词和查询的共现率来获取扩展词,可以更好的考虑扩展词和初始查询的关联性。将聚类和局部共现技术进行结合,能够从两个环节对查询扩展进行了改进和优化,更好的提高了信息检索系统的性能。在测试数据集上的实验结果表明,检索结果的相关性都得到了显著的改善。这一结果表明,聚类和局部共现技术对于信息检索性能的提高是有效的。