论文部分内容阅读
随着网络技术和软件技术的飞速发展,特别是Internet/Intranet的发展,大多数信息资源已不再只是结构性资料,而是以丰富多样的非结构化形式提供给使用者。非结构化信息的应用范围日趋扩大,其数量呈指数递增。对各种非结构化信息构造一致的表示机制,并在此基础上建立能有效处理和检索各种非结构化信息的统一平台,以满足日益增长的非结构化信息实际应用的需要无疑是一个颇有研究价值的课题。 本文首先分析了采用XML统一表示非结构化信息的原理及优势,然后针对其语义表达能力上的不足,引入Ontology(本体)的概念,介绍了一种基于Ontology和XML的非结构化信息语义表示机制。 XML具有数据模式的表示方法,它有着丰富的内容和关系、语法和语义的分离、内容和表现的分离等特性,在描述非结构化信息方面显示出了其独特的优势。但需要指出的是,XML毕竟只是一种定义文档结构的描述性语言,并且具有语法的多样性,XML标记和文档结构可以表示一些语义属性,但是对于它们怎样在特定应用范围之外被机器所理解和处理尚未有结论。 Ontology是共享概念模型的明确的形式化规范说明,其目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇(术语),并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。本文的语义表示机制就是通过建立Ontology和XML模式规范(DTD/XML Schema)之间的关联,将Ontology的语义模型引入XML文档,使得XML文档标记及其结构能够表达明确的领域知识,将对非结构化信息的表示从原来的语法级别提升到概念及概念之间关系的抽象级别,有效地避免了语义异构冲突。该机制为现有系统应用中的非结构化信息的管理提供了语义级解决方案,从而能够有效地推动这些系统应用,并且提高其实际价值。 最后,本文运用JAVA及XML编程初步实现了该机制的部分内容,并将其应用于湖北省教育厅科研资助项目——“基于XML的WEB存储系统研究”——所建立的OBSA模型,为促进其中非结构化信息的共享和重用,以及高精度检索、快速交换等语义互操作打下一定的基础。