论文部分内容阅读
数字图书馆作为第二代Internet的关键基础设施,近年来取得了快速的发展。面对海量的、异构的数字资源仓储,帮助用户准确有效地找到所需信息成为重大挑战之一。
元数据是“关于数据的结构化数据”,为数字图书馆提供了一种精确描述数据内容、语义和服务的机制。在资源建设方面,元数据作为定义和组织数字图书馆信息资源的基础,起着重要作用。因此,元数据管理(包括元数据自动抽取、元数据语义标注和语义检索等)是重要的研究课题。
数字图书馆间的互操作是服务集成的基础。简单地说,互操作代表了数字图书馆各个组成部分独立地演变和方便有效地互相调用的能力。数字图书馆之间的互操作包含两个层面,一是数据级别的互操作,二是服务级别的互操作。
数字图书馆服务集成依赖于元数据组织和服务互操作,这是数字图书馆研究和发展的关键问题。本文的主要贡献可以概括为以下三个方面:
1.定义了基于语义网理论的元数据语义信息模型DLOnto,该模型建立在中图分类主题词表资源本体和WordNet基础之上。提出了基于DLOnto的查询扩展和语义相关度算法,该算法应用于元搜索的结果排级和数字图书馆的语义排级都取得了很好的效果。
2.提出了结合SVM和二元HMM自动抽取科技文献元数据的方法,利用双弯曲线函数把SVM分类结果拟合为二元HMM模型的单词发射概率,再采用二元HMM模型对SVM分类结果进行校正。实验表明,本文的元数据自动抽取理论和方法非常有效。
3.提出了支持OAI-PMH和Web服务的互操作框架。支持OAI-PMH选择性收割协议和基于元数据本体MetaOnto元数据互操作,支持基于OAI-PMH和WSRF的元数据同步,支持基于OWL-S语义描述的Web服务进行服务集成和元搜索。
在PKUSpace中的相关实验表明,本文提出的元数据组织和基于互操作进行服务集成的理论和方法是行之有效的。为数字图书馆资源语义组织,元数据自动标注,异构数字图书馆数据和服务集成提供了切实可行的解决方案,最终帮助用户准确有效地找到所需信息。