论文部分内容阅读
传统的信息检索方法通常使用基于“词袋”的文本表征模型。“词袋”模型在表征文本时存在非常明显的缺陷。文本中的词项蕴含一词多义、语义相关和多词同义等复杂语义信息,而这种模型不能很好的捕获文本中的词项的复杂语义信息。知识库(例如,Wikipedia)中的实体蕴含了丰富的语义信息。因此,许多研究者们尝试利用知识库中的实体来对文本建模,并提出了许多基于实体的信息检索方法。本文中在语言模型框架下分别提出了新的基于实体的检索模型和伪相关反馈模型。与已有的基于实体的检索模型相比,本文中提出的方法有以下两点优势:(1)使用实体链接工具TagMe抽取查询和文档的实体,TagMe在精度上优于已有的实体链接工具,能够快速、准确地抽取文本中链接的实体;(2)在语言模型的检索框架上融合查询和检索文档的词项信息和实体信息,考虑词项信息和实体信息的相对重要性对检索性能的影响。本文中的主要研究工作内容如下:1)提出了一个基于实体的语言模型检索框架,将实体信息融入到基于词项的一元语言模型中,以此提高信息检索的性能。本文分别在语言模型定义的层次上和检索模型评分函数的层次上融合词项信息和实体信息来提高检索性能。本文中提出了四种基于实体的检索模型TSE、TAE、TS-TSE和TS-TAE。在AP90、AP、DISK1-2、DISK4-5(-CR)、WT2G和WT10G数据集上的实验证明了检索模型TSE、TAE、TS-TSE和TS-TAE的有效性和可行性。2)将基于实体的语言模型应用到伪相关反馈方法中以提高伪相关反馈方法的检索性能。在传统的伪相关反馈方法中,计算候选词项在伪相关反馈文档中的重要性程度时只考虑词项的词频和逆文档频率,忽略了文本中的词项的复杂语义信息,因此,候选扩展词项可能与初始查询在语义层次上不相关。基于这一思路,本文中提出了一个基于实体的伪相关反馈框架,将实体信息融入到相关性模型RM3中,以此提高信息检索的性能。本文中在语言模型框架下提出了两种基于实体的伪相关反馈检索模型RM-TAE和RM-TAE-TAE。在AP90、AP、DISK1-2、DISK4-5(-CR)、WT2G和WT10G数据集上的实验证明了检索模型RM-TAE和RM-TAE-TAE的有效性和可行性。