论文部分内容阅读
互联网发展至今,网络上的数据呈指数级增长,如何能够更准确的给用户提供所需的信息成为信息检索领域研究的热点问题之一。传统的信息检索系统主要是通过简单的计算查询词跟文档中词之间的简单匹配操作,从而得到与查询相关的文档列表,这样往往无法提供给用户满意的结果。因为有些词是有歧义的,并且有些词的意思也会随着时间的变化而变化。如何能够更好的组织查询与文档之间的关系问题。首先要解决的就是词之间的关系问题,由于查询往往很短,所以我们需要利用额外的信息来对查询进行扩展[3][23][24][25][26][27],Markov网络团就是一种很好的用于查询扩展方法,它与我们传统的基于简单词汇匹配的检索方法不同,它是将图论、计算机科学、概率论的技术,思想融合起来。Markov网络被广泛用于不确定性知识的表示和推理,以及变量之间的传递过程,它是解决不确定性问题的有效方法。信息检索系统存在很多问题,因为它不能准确地理解用户的查询意图。因此对用户的查询意图进行识别也是一种有效提高检索效率的方法[37][42][44][47]。所以,试想如果能够利用Markov网络团的方法来对查询意图进行识别,并且在后续的检索过程中加入查询的意图信息,是否能更好的提高检索效率。基于上面的思想,我们提出运用这种方法来对查询意图识别。首先人工标注搜狗查询日志中约2250个查询作为测试数据。采用搜狗提供的分类语料(共十类)来建立Markov网络,通过建立的Markov网络来对查询进行扩展,从而得到相关的返回结果列表,通过在分类语料训练好的分类器来对返回结果进行分类,来完成对查询分类的过程,在已知类别信息的情况下再次对查询进行检索的过程。实验中采用的评价指标是11-avg和3-avg,准确率和召回率,实验证明本文提出的方法能够有效的提高检索效率。