论文部分内容阅读
众所周知,叙词表是一种为解决信息的主题排序而创造的人工语言,它的本质是对自然语言中的词汇进行选择、规范、并揭示其间相关关系,由此形成受控词汇的集合,它的出现主要是为了解决大量的文献如何被方便科学检索的问题。然而,WWW是当今主要的网络信息的集散地,不仅汇聚了海量的信息,而且信息数量正在以指数级的速度增长。随着数据量的激增,WWW上大量分布的无结构和半结构化数据日益加剧信息检索的困难,因此,如何组织海量的数字信息,并为用户提供精确高效的网络检索服务成为重要而迫切的研究课题,这引起了人们对传统知识组织工具如叙词表、分类表等在网络环境中适应性的争论。尽管叙词表和分类法等传统知识工具已开始在网上发展,但是对机器语言来说,其互操作性和表达性仍比较差,为此人们提出了本体这种能在语义和知识层次上描述信息系统的概念模型建模工具。领域本体构建的重要意义主要体现在: 首先,领域本体的目标是捕获相关领域的知识,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇之间相互关系的明确定义。从而实现人们对同一客观事物的共识,形成一个统一的认识事物的标准。即为人类认识活动构建顶层概念框架。 其次,本体更加突出知识共享的功能,尽管二者都对概念间等级关系、相关关系进行了揭示,但本体更着眼于给出人类事物认识的知识(或领域知识)总框架,因为在本体的一个实体中每个概念都有其属性信息、实例信息,而这些在词表系列中则少有展示,很多已经涉及到专业词典中的知识,因此说一个本体是一个人类知识(或领域知识)体系的汇总毫不夸张。 最后,本体的出现还是为了设计一种机器可以理解的语言。通过本体可以克服计算机系统之间的语义鸿沟,实现某个领域内不同主体(人、机器、软件系统等)之间的对话、互操作、知识共享等目的,于是它被认为是一种共享的概念模型的形式化的规范说明。其中形式化就是指应该是机器可读(可理解、可操作)的意思,而这也成为了在计算机网络环境下应用研究的主题之一。 领域本体的构建体现了目前的趋势,但是原本属于本邻域的叙词表是丢弃还是融合?这是本文探讨的问题。笔者认为,由于叙词表和领域本体之间有许多的相同和不同之处,使得基于叙词表来构建领域本体具有一定的优越性。由于某学科领域的叙词表包括本学科领域中相对比较完整的术语(叙词),因此这些术语(叙词)可以为本领域本体中的概念的创建提供指导;另外,叙词表中的限义词、