论文部分内容阅读
随着互联网时代的高速发展,大量的信息不断的呈现在互联网上,信息检索已经成为人们获取信息的必要的手段。搜索引擎的出现极大地满足人们的需求,让人们能够轻松地面对互联网上的海量信息。在用户进行检索的时候,影响用户搜索体验的一个重要原因是往往用户在进行搜索的时候的查询词较短,大部分用户在进行搜索的时候常常只用很短的几个关键词,造成查询表达与意图不一致,会大大影响用户的搜索体验。一些学者开始专注于查询扩展技术在信息检索中的应用,该方法利用对用户的初始查询词进行扩展得到新的检索词,从而达到改进检索性能的目的。作为信息检索的一种有效的查询优化方法,查询扩展技术的研究具有重要的意义。在查询扩展的时候,如果得到的扩展词与查询是不相关的,可能降低检索结果。尤其是一个文档可能有多个主题,为了解决这些问题,基于主题模型的查询扩展算法应运而生。基于主题模型的查询扩展方法由于能够很好地考虑到了查询与文档之间的主题语义相关性,逐渐被一些学者关注。本课题对现有基于主题的算法进行了深入的了解和分析,结合了一些研究提出了基于主题互信息和基于主题词对的两种语义查询扩展方法。这两种方法都是通过使用LDA主题模型作为提高检索性能的方法:(1)基于主题互信息的方法不仅利用了查询词与候选词的互信息的同时也考虑到了主题的相关度,该方法解决了基于主题模型的查询扩展方法中主题代表词的选择问题,使用了互信息作为查询词与主题词的相关度保证了主题代表词与查询之间的相关度。(2)基于主题词对的查询扩展方法中,创新性的使用了主题向量作为词对之间的语义相关度,该方法使用词对之间的相似度用作候选词与查询之间的相关度。我们在使用了词对之间的相关度得同时,也引入了词与词之间的Dice相似系数。综合了原查询词和候选扩展词之间的这两方面的相似度的因素。我们把扩展词放入原查询词得到新查询词,进行再次检索,最终得到检索结果。经过实验证明本文提出的两种扩展算法方法相对于RM3、LCA和主题模型查询扩展算法MAP和P@10结果都有明显提升。