论文部分内容阅读
在信息爆炸的时代,我们陷入了“信息丰富、知识贫乏”的尴尬状态,一方面用户无法找到自己真正需要的信息,另一方面用户难以直接从海量信息中获取到知识。这就涉及信息检索的核心问题:相关性问题。现实要求传统的信息检索向知识检索进化、传统的信息服务向知识服务进化,将知识的控制单位由文献深入到能直接表达知识含义的知识元,即信息检索的粒度要进化到知识元的粒度。知识元是能完整表达知识信息的最小单位,能直接提供知识。知识元之间通过各种各样的关系进行关联。将知识元引入到检索系统中,一方面可以让用户更快捷地从检索结果中获得知识,即检索结果不需深入阅读即可让用户了解其是否符合自己的需求;另一方面,通过知识元之间的语义关联和相关度算法以及用户反馈机制的调整,可以更好的解决检索系统的相关性问题。近些年,一方面,关于知识元的理论研究已经取得了一定的成果,对知识元的定义、分类、知识元表示、知识元标引等都有了一定的理论积累,对于知识元库的构建和使用等应用研究也有了一些实践。但是对于知识元检索尚无相关讨论。另一方面,信息检索的相关性一直是情报学的核心课题之一,理论和应用研究成果都比较丰硕。但是,仍然有很大的改善空间;而且,关于知识相关度的研究还比较少。综观现有文献,关于知识元、信息检索或知识检索相关性的研究,但很少有学者考虑两者的关系,将两者结合起来,考虑知识相关度问题。本文主要讨论了知识元检索系统中的知识相关度问题。回顾了知识元的研究现状和传统信息检索的经典系统模型、相关度模型与维度,讨论了本体结构的知识组织体系的相关度的计算方法。在此基础上提出知识元检索的系统模型,参考Mizzaro四维模型,将知识元检索的相关度维度分解为知识元本体空间和动态的用户知识需求空间两个维度。尝试探讨了知识元的本体表示方法,即将n元组的知识元概念化,通过知识元间的语义关系,将知识元表示为概念化知识元本体网络,即用节点来表示概念和属性,用节点间的弧来表示概念与属性的关系和知识元间的关系,形成一个有向图。提出了计算知识相关度的方法,综合考虑了概念网络的密度、宽度、深度、知识熵、链路类型、最短路径和关联扩展等因素,将概念相似度、属性相似度、关系扩展结合起来,辅以用户反馈调整机制,组成一个综合全面的知识相关度计算体系,最后通过一个局部的电影知识元本体对此理论进行了验证。本文的主要创新点在于将知识元引入信息检索,讨论了知识元的一种表示方法,即概念化的本体网络表示方法,并改造出了知识元检索的相关度维度模型。在此基础上构建了一个多角度的知识相关度计算框架,并提供了一种验证方法。本文的研究能够为构建知识元检索系统、进行知识服务提供一种可行思路,也为知识相关度研究或者信息检索相关性研究提供一种理论参考。