论文部分内容阅读
现在海洋科学蓬勃发展,海洋文献元数据的规模也随着日益扩大。海洋学科的交叉和差异性导致海洋文献元数据的异构性;所以海洋文献元数据的共享和互操作问题亟需解决。语义元数据能够描述资源的语义信息,实现资源数据在语义层次上的共享和互操作。语义标注技术能够将元数据转化为语义元数据;故本文研究海洋文献元数据的语义标注技术。本文通过研究分析国外语义标注工具和方法,总结出海洋文献元数据的语义标注技术有两大关键技术:文献元数据的自动分类挑选和自动语义标注。文献元数据的自动分类挑选技术能够自动地从海量文献元数据中挑选出标注需要的海洋文献元数据;自动语义标注技术能够自动地将海洋文献元数据转换为语义元数据。上述两个技术及其实现是本文研究的核心内容。本文将基于机器学习的文本分类理论应用于文献元数据的自动分类挑选技术;使用文献的摘要信息作为分类文本,通过实验对比最大熵、支持向量机和Adaboost三种分类方法的分类效果;实验结果表明:最大熵是最合适的分类方法,其查准率为99.2492%、查全率为94.4286%。本文使用C#语言设计实现了文献元数据的自动分类系统,该系统使用最大熵作为分类方法。本文深入分析XML Schema,发现其结构定义隐含语义信息。本文提出一种本体自动构建算法,该算法通过解析XML Schema,获取结构定义隐含的语义信息,自动构建原始的领域本体。本算法能够有效地减少本体构建的工作量。由于该算法能够产生XML结构和本体之间的语义映射关系,本文又提出了一种元数据自动语义标注方法。该方法使用本文提出的本体自动构建算法产生语义映射关系,根据语义映射关系实现元数据的自动语义标注。本方法能够广泛适用于XML Schema标准定义的元数据,比GRDDL适用范围广。本文使用Java和Jena实现了本体自动构建算法和自动语义标注方法。本文研究的海洋文献元数据的语义标注技术适用于任何领域的知识元数据,具有较强的通用性。