论文部分内容阅读
作为目前信息检索领域十分有效的检索模型,基于语言模型的检索方法开辟了一个很有潜力同时也十分具有挑战的方向。与传统检索模型相比,以语言模型为基础的检索方法不仅具有良好的理论基础,而且非常灵活,在经过简单变换和数学推导后就能够转变成其他经典实用的模型,因而被广泛应用于信息检索领域。 统计翻译模型作为语言模型的一种,主要被用于解决查询条件与网页文档之间的词汇间隙问题。大量研究表明,统计翻译模型能够很好的解决查询条件与网页文档之间的词汇间隙问题,对检索结果的相关性有显著提高。由于缺少相关训练语料,现有的研究采用相关语料代替理想语料进行训练。除此之外,现有的统计翻译模型信息检索系统大多基于简单的统计翻译模型,并且研究方向主要集中在平滑技术、自我翻译等,很少有引入上下文依赖以及语义信息。针对上述问题,本论文从以下方面进行研究: (1)研究了网页文档中不同文本区域与查询条件语言表达相似性。通过统计语言模型、困惑度等传统方法对不同文本区域与查询条件语言表达相似性进行了初步分析。同时,通过商业搜索引擎的用户点击信息,获取真实的查询条件与网页文档的平行语料,并根据网页文档中不同文本区域训练得到的统计翻译模型对网页文档中不同文本区域与查询条件语言表达相似性做进一步分析。 (2)针对现有模型存在的一些问题,提出了基于N-Gram的统计翻译模型。该模型利用N-Gram的相关特性灵活的引入了上下文依赖,并且模型参数估计方法更为简单,适用范围更为广阔。同时,给出了基于N-Gram的统计翻译模型的平滑技术以及自我翻译问题的解决方法等。 (3)将潜在语义引入统计翻译模型中,探索了如何在基于统计翻译模型的信息检索任务中引入语义信息。该方法在直接估计词语之间翻译概率的基础上,引入了潜在语义变量,通过估计词语与具有一定语义信息的潜在语义变量之间的翻译概率进一步提高检索结果的相关性。