海洋文献元数据的语义标注技术研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:sdfcasdvgase
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在海洋科学蓬勃发展,海洋文献元数据的规模也随着日益扩大。海洋学科的交叉和差异性导致海洋文献元数据的异构性;所以海洋文献元数据的共享和互操作问题亟需解决。语义元数据能够描述资源的语义信息,实现资源数据在语义层次上的共享和互操作。语义标注技术能够将元数据转化为语义元数据;故本文研究海洋文献元数据的语义标注技术。本文通过研究分析国外语义标注工具和方法,总结出海洋文献元数据的语义标注技术有两大关键技术:文献元数据的自动分类挑选和自动语义标注。文献元数据的自动分类挑选技术能够自动地从海量文献元数据中挑选出标注需要的海洋文献元数据;自动语义标注技术能够自动地将海洋文献元数据转换为语义元数据。上述两个技术及其实现是本文研究的核心内容。本文将基于机器学习的文本分类理论应用于文献元数据的自动分类挑选技术;使用文献的摘要信息作为分类文本,通过实验对比最大熵、支持向量机和Adaboost三种分类方法的分类效果;实验结果表明:最大熵是最合适的分类方法,其查准率为99.2492%、查全率为94.4286%。本文使用C#语言设计实现了文献元数据的自动分类系统,该系统使用最大熵作为分类方法。本文深入分析XML Schema,发现其结构定义隐含语义信息。本文提出一种本体自动构建算法,该算法通过解析XML Schema,获取结构定义隐含的语义信息,自动构建原始的领域本体。本算法能够有效地减少本体构建的工作量。由于该算法能够产生XML结构和本体之间的语义映射关系,本文又提出了一种元数据自动语义标注方法。该方法使用本文提出的本体自动构建算法产生语义映射关系,根据语义映射关系实现元数据的自动语义标注。本方法能够广泛适用于XML Schema标准定义的元数据,比GRDDL适用范围广。本文使用Java和Jena实现了本体自动构建算法和自动语义标注方法。本文研究的海洋文献元数据的语义标注技术适用于任何领域的知识元数据,具有较强的通用性。
其他文献
学位
随着工控技术水平的迅速提高及计算机技术在工业领域的广泛应用,越来越多的企业选择使用监测软件对工业流程进行实时监测,从而提高企业的综合竞争力,实现企业的优化运行、优
数据挖掘是一门将人类的探索能力和计算机的强大处理能力结合在一起,发掘海量数据背后隐藏的知识的新兴技术。可视化是一门涉及计算机图形学、图像处理、计算机辅助设计、计
汽车产业链是由汽车制造厂、供应商、服务商和销售商组成的一个庞大的协作网络,汽车产业链协作ASP平台是基于ASP技术面向汽车产业链的公共应用服务平台,它为中小型汽车制造企
随着各种各样新技术的发展,人类的生活发生着翻天覆地的变化,这样的变化在近几年来尤为迅速。信息技术在社会各领域的广泛应用,使得该技术本身也要针对各领域内发生的变革做
随着PDA、手机等便携式移动计算设备的普及,手写输入的应用越来越广泛。尽管汉、英文手写输入技术已经比较成熟,但维吾尔文字的联机手写识别产品尚未见报道。本文首先介绍了联
语义Web是新一代万维网标准,作为语义Web核心的本体,可以表示资源本身以及资源之间丰富的语义信息,因此要发展语义Web,就要构建语义丰富的本体。XML不仅能表示结构化数据,还
推荐技术能够分析用户的偏好属性、预测用户需求并提供个性化服务。以推荐技术为核心的应用系统(推荐系统)研究已成为当前计算机科学领域的研究热点之一。 对于一个开放的
驾驶员的工作状念是决定行车安全的重要因素之一,由于驾驶员工作状态不良而引发的交通事故,主要原因在于驾驶员的疲劳和精神疏忽,而脸部的姿态运动是关键性因素之一。本文的
建立和普及社区卫生服务体系是党中央、国务院为建立和谐社会而实施的重要战略举措,是党中央、国务院为解决广大人民群众看病难、医疗负担重等问题而采取的切实有效的措施。