论文部分内容阅读
在国内,作为十大科技文献之一的科技报告一直受到冷落。国家科技报告服务系统的正式上线标志着我国科技报告工作步入正轨。然而,这仅仅只是迈出的第一步,只是对科技报告文档的管理和利用,而针对科技报告内容的挖掘及利用仍处于初步阶段,相关研究非常之少。以专著、论文以及专利等科技文献为对象的研究相对较多,但是也存在集成度不高、粒度较粗的问题,难以满足用户的信息需求。关联数据作为一种结构化的知识组织和发布方式,提供了解决思路。本文以科技报告为研究对象,通过对科技报告的结构进行分解,以章节为单元进行中粒度关联数据的创建与发布,为构建多粒度的组织体系打下基础,以期达到满足用户多粒度的信息需求。主要包括以下内容:(1)针对当前科技报告重视度不高,信息检索集成度较低以及粒度较粗的问题,提出了以科技报告的章节为单元创建和发布中粒度关联数据。阐明本文的研究背景和意义。从科技报告、关联数据两方面分析国内外研究现状。(2)阐述科技报告中粒度关联数据的创建与发布的理论基础。包括科技报告相关理论,即科技报告的内涵与外延、科技报告的特点与价值以及科技报告文档的结构;关联数据的相关理论,即关联数据的定义、关联数据的四大原则以及关联数据的发布流程;粒度相关理论,粒的概念,粒的层次以及细粒度、中粒度、粗粒度三者的比较。(3)论述了科技报告中粒度关联数据的创建方式方法。包括中粒度数据的自动获取、自动标注、中粒度数据的命名(分配URI)、中粒度数据的语义描述以及语义关联的挖掘。(4)论述了科技报告中粒度关联数据的发布、测试以及访问。其中发布方式包括发布静态RDF文档、基于关联数据的发布方式和基于API封装的发布方式三种;访问方式主要是基于SPARQL语言的查询。(5)选取“化学与化工”领域的科技报告进行实证,其结果表明本文提出的科技报告中层粒度关联数据的创建与发布方法能够有效发布科技报告中粒度关联数据。