论文部分内容阅读
互联网是海量信息资源库,随着大数据网络信息新时代的到来,信息量正以爆炸性的速度在增长,并且信息的组织是异构的、多元的和分布的,如何准确的在海量信息中寻找满足用户查询期望的信息已成为当前信息检索系统所面临的重大挑战。本文深入研究了基于领域本体的信息检索,以本体为依据,提出一种新的语义映射模型,并对领域本体的构建、本体查询扩展等进行了以下研究工作:1、领域本体的构建。参照斯坦福大学的“七步法”原则,提出一种领域本体的构建方法并通过本体开发工具Protege给出一个领域本体的构建实例。2、提出一种新的语义映射模型。在线性链条件随机场的基础上提出一种隐动态条件随机场,并结合单词的上下文语境,在领域本体和词汇间建立语义映射模型,用来存储本体概念与词汇间的映射关系,达到词义消歧的目的。并将经过该语义映射模型进行词义消歧后的用户查询和文档库中的文档转化成相应的概念向量,再利用向量空间模型进行文档语义相似度计算并按相似度大小将匹配结果集进行排序输出。通过对比实验表明隐动态条件随机场模型要优于隐马尔可夫模型和最大熵模型。3、本体查询扩展研究。由于本体能描述和定义概念及概念间的相关关系具有较强的语义表达能力,当用户查询经所构建的语义映射模型映射到本体中对应的概念后,还可对其进行推理扩展,进一步提高检索效率。采用的方法是依据本体类公理,利用Jena中加入自定义推理规则的推理机制对映射出的概念进行复杂关系的推理,包括类关系推理、类/实例关系推理和基于属性的推理。基于前面的研究,本文开发了一个基于体育领域本体的信息检索系统,该系统能同时支持关键词检索、本体扩展检索和本体语义检索等三种检索方式。实验结果表明本体语义检索比关键词检索和本体扩展检索在查准率和查全率上有明显提高,因此,能满足人们更高的检索需求,为今后更深入的研究语义信息检索提供了基础。