论文部分内容阅读
近年来,科技文献服务的需求日益知识化,对科技文献标引的深度和准确度提出了更高的要求。其中,知识抽取已经成为制约知识服务系统开发建设的关键环节,需要集中大规模语义计算的优势力量,展开攻关。该研究的总体目标是以科技文献概念空间关联为主线,面向科技文献词表和分类体系,研究多维度的科技文献概念空间构建方法,提出用于概念空间关联的多渠道概念匹配算法,设计并开发面向科技文献概念空间建立于关联的原型工具。本文的研究内容,主要包括理论及其系统实现两个方面。理论方面,所用到的科技文献词表素材是各领域的叙词表,涉猎的分类体系包括“国际专利分类表”、“国际标准分类法”、“中国标准分类法”、“杜威十进制分类法”、“国际十进制分类法”和“中国图书馆分类法”。根据对主题词表和几种分类法进行结构上的异同分析,构建一个有能力从语义层面统一描述各种异质知识体系的公共数据模型。公共数据模型主要实现两个作用:一方面,可以将各种分类法和主题词表投影到相同的知识概念空间;另一方面,实现从不同分类体系中取词来进行比较。基于统一的概念空间(用公共数据模型描述),可以进一步开展面向科技文献知识体系的语义映射算法的研究。本文中所研究的算法是基于字符的概念匹配、基于结构的概念匹配和基于语义推理的概念匹配方法的集成,这样可以更好的提高机辅映射发现的查全率和查准率。在开发方面,公共数据模型用IBM的Ecore模型来描述,通过建立的Ecore模型驱动生成一个面向科技文献知识体系概念空间构建的可视化图形化编辑插件,进而编码实现了分类法和主题词表的自动导入和可视化显示,最后开发了面向科技知识体系映射机辅发现的语义比较插件,其中编码实现了模型中各结点之间比较的关联算法,并将上述工具集成为一个具有数据导入、数据可视化及数据导出三种功能的RCP产品。本文研究了基于科技知识组织体系(Science and Technology Knowledge Organizing System,简称STKOS)的概念映射及其关联算法,所实现的意义有以下几点:首先,本文的研究,以统一的概念空间为研究基准,实现科技文献概念与分类的共享,从而从不同的维度为科技概念建立关联,有着明显的现实意义。其次,从语义层建立概念和分类体系之间的关联,能够提高整个概念空间的知识化程度,使关联映射的复用性大幅度提高,得到更接近自然语言思考和表达的语义关联网络。最后,综合应用基于字符的概念匹配方法(字符串比较,编辑距离比较和数据字典查询等),基于结构的概念匹配方法,和基于语义的推理的概念匹配方法,以便达到在不同的概念空间中最大程度的自动地、准确地发现概念关联。