论文部分内容阅读
随着互联网信息的爆炸性增长,人们对通过搜索引擎来获得网络信息的依赖也日益增加。目前,大多数搜索引擎在提供信息自动化检索服务时,首先要求用户输入包含一个或多个词语的查询条件,然后返回相关检索集合。因此,一个构造良好的查询,是用户主观信息需求的客观表现,也是信息检索服务质量的基本保证。尽管随着用户检索技能的不断提高,查询包含词语的数目在逐年增加,但是面对无限丰富的互联网信息,查询对于用户信息需求的描述总是显得力不从心。网络信息的丰富性与查询描述信息的有限性形成了鲜明的对比。在这种条件下,搜索引擎对于用户信息需求理解的偏差是影响信息检索服务质量的基本原因之一。近年来,上下文在信息检索中的应用引起了广泛的关注。广义上讲,上下文信息涵盖了检索过程中和用户或查询相关的所有重要线索。从上下文角度实现用户查询的理解,是对查询表达信息的进一步完善和解释。基于上下文的查询描述为用户真实查询意图的把握提供了可能,也为进一步检索处理的有效性奠定了坚实的基础。应该说,用户查询构造过程是一个由繁到简的信息筛选过程。简单查询背后一般都隐含着无比丰富的描述信息,这些信息往往最能反映用户对于信息需求的原始表达。因此,在本文的研究工作中,上下文信息的定义和识别主要围绕着用户查询构造这一行为而展开。从认知角度出发去理解用户查询的构造,本文引入了查询特征这一概念,并从三种角度实现对查询特征的定义,分别是查询类型、查询内部词语依存以及查询外部依存环境。这些特征在一定程度上体现了查询对于信息需求的潜在描述,为查询词语的出现状态提供了合理解释,也因此为查询提供了丰富的上下文描述信息。在上下文信息有效利用的前提下,信息检索的性能必将获得较大幅度的提高。在上述思想的指导下,本文提出了基于查询特征上下文的信息检索模型—QFCIR(Query Feature Context based Information Retrieval)。QFCIR模型围绕着查询相关上下文信息的识别以及检索结果的优化而展开。在句子这一特殊上下文信息表达方式的基础上,QFCIR模型主要由四部分构成,即:基于查询类型的句子检索模型、基于马尔可夫随机场的句子检索模型、基于贝叶斯网络的句子检索模型以及基于句子的信息翻译模型。在基于查询类型的句子检索模型中,本文重点分析了查询类型对于查询特征的反映,并以查询词语和查询类型为主要判断因素进行上下文信息的有效识别。为了让所得上下文充分描述查询相关类型,体现用户查询对于特定类型信息的需求,本文进一步提出了一种基于混合方法的查询分类模型,有效地提高了查询类型识别的准确性。在基于马尔可夫随机场的句子检索模型中,查询词语内部的关联关系是查询上下文信息考察的基础。在马尔可夫随机场模型的基础上,本文分析了三种形式的查询关联结构,并以查询词语在句法结构中的关联特征为依据进行句子上下文相关性的判断。该方法充分考虑了查询词语间的关联特征,因此,查询条件越丰富,方法的有效性越明显。在基于贝叶斯网络的句子检索模型中,贝叶斯网络的信息推理功能被有效地应用于查询外部依存环境信息的挖掘。本文在简单贝叶斯网络模型的基础上进一步考虑了同一语境中查询词语同其他词语之间的关联,充分利用贝叶斯网络对于不确定性信息处理的有效性以及词语关联信息对于相关判断的灵活性,实现了上下文推理的准确性。最后,本文利用所得上下文信息实现了初始检索文档相关性的重新评估,完成了检索结果的重新排序。在上下文的基础上,文档相关性判断的实现依赖于以句子为单位信息翻译模型的执行。该模型的实现参考了翻译模型在文档检索中的应用,具有坚实的理论基础,同时操作简单,是上下文环境下实现文档相关性判断的一种切实可行的方案。