论文部分内容阅读
互联网的飞速发展使得人类的信息总量呈现出指数级增长的趋势,为了使用户能够更快更准确地在海量的资源中找到与当前需求相关的信息,信息检索技术应运而生。目前,搜索引擎作为信息检索的一个重要应用已经成为人们日常工作生活中不可获取的工具,它对用户提交的代表其搜索意图的查询词进行检索并按照文档与查询词的相似度的大小关系作为返回相关文档的排列顺序。然而,相同的查询词对于不同的用户来说所代表的查询意图可能并不相同,造成这个结果的原因主要有两个:一是查询词可能存在着歧义性,二是查询词下可能涵盖着多个子意图。因此,仅仅考虑相似度的检索方式会使某些用户的需求不会被满足,检索结果应该考虑用户的多样化需求。为了满足用户的多样化需求,本文对检索结果多样化问题进行研究,提出了基于查询子意图识别的多样化方法,充分考虑返回文档集合与用户查询意图的相关性和返回文档之间的多样性。本文中的基于查询子意图识别的多样化方法是在传统的显式多样化方法和隐式多样化方法的基础上发展而来的,兼有显式多样化方法中对原始查询下不同的子意图进行显式覆盖和隐式多样化方法中降低返回文档集合的冗余性的特性。方法中主要包括原始查询下的不同子意图的识别,不同子意图的权重大小关系预测和利用不同权重的子意图进行多样化结果排序三个方面。因此本文主要从以下几个方面展开研究:1.对原始查询下的不同子意图进行显示挖掘。将商业搜索引擎给出的与原始查询相关的Related查询和Suggested查询作为候选子查询,并利用人工标注的方式将不同的候选子查询划分为不同的子意图。同时,与其它三种挖掘候选子查询的方式进行性能比较,证明了我们使用的方法的有效性。2.对不同类别的子意图进行权重预测。通过对6个月的浏览器用户日志的挖掘,提取出32个与子意图相关的特征,并利用SVM排序模型对不同类别的子意图进行权重预测。3.对检索结果多样化问题进行分析,并提出基于查询子意图识别的检索结果多样化方法并给出算法的一般过程。通过与传统的显隐式多样化方法的性能上限和一种显式多样化的变种方法的性能进行比较,证明基于查询子意图识别的检索结果多样化方法的有效性。并对基于查询子意图识别的检索结果多样化方法的性能与子意图类别个数的关系进行分析。通过在NTCIR9子意图挖掘任务的数据集合上的验证,证明我们使用的子意图挖掘方式具有很好的表现,为其它需要使用查询子意图的工作奠定了基础。通过在NTCIR9多样化结果排序任务的数据集合上与其它检索结果多样化方法的比较,证明基于查询子意图识别的检索结果多样化方法更能够满足用户对于多样化检索结果的需求。