语义出版及其应用现状研究

来源 :理论与创新 | 被引量 : 0次 | 上传用户:xujinjinjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘  要】语义出版是建立在资源深度揭示与高度集成基础之上的,作为数字出版的高级形态,语义出版的深入研究与探索不仅为丰富数字图书馆资源集成提供了合理导向与明确目标,更为数字图书馆将资源组织单位由出版单元或文献细化到揭示资源“微内容”特性的知识单元提供了可能。本文对语义出版模型与及其构建工具、语义出版关键技术、语义出版实践进行全面分析,旨在揭示语义出版在数字图书馆资源组织中的重要作用。
  【关键词】语义出版;数字图书馆;数字资源;关联数据
  引言
  语义出版在语义网的基础上发展而来,是数字出版的高级阶段,语义出版的正式概念源自于David Shotton在2009年发表的《Semantic Publishing:the coming revolution in scientific journal publishing》一文,即,语义出版能增强已发表论文的含义,促进论文能自动化获取,能链接到与其语义相关的文章,并提供多种获取文章内数据的访问途径,使得论文之间的数据整合变得更加容易。
  经过十年的发展,语义出版的对象已由狭义的学术期刊论文发展到图书、学位论文等形式文献型学术资源,其概念被不断的丰富和充实,王晓光等人认为语义出版是基于语义技术及其相关信息技术,通过语义标记丰富期刊文章的表现形式和显性内容,提高文章信息的可操作性和交互性,增强文章关联度,从而改进出版流程,进而实现智能化出版的方式。程维红等人认为语义出版是通过语义标记丰富期刊文章表现形式,提高文章信息可操作性和交互性、增强文章关联度、改进出版流程的智能化出版方式。汪庆等人认为,语义出版可以定义为任何能够增强期刊文章语义的出版形式,具有语义化、结构化和关联化的特征,能够实现机器自动处理、识别、集成与整合信息的目的。彭希珺等人则提出语义出版是通过揭示每篇论文中的知识单元及其语义类型和语义关系,并且与其他论文、期刊和知识资源中的知识单元进行关联,支持基于动态关联的知识发现。许鑫等人认为,语义出版是一种语义增强的出版形式,通过对文章内容和形式进行语义标记,增强内容之间的关联,提高科研人员的检索和获取效率,实现智能化出版。
  1.语义出版模型与及其构建工具研究
  随着语义出版概念的不断丰富,相关的语义出版模型与构建工具也有了一定的成果。其中,语义出版建模的基本思路将出版物内容结构化和语义化,主要覆盖了出版物的内容要素、结构要素、出版全流程三个层面。
  出版关键内容建模主要是对论文关键知识进行语义标注,促进计算机对论文关键贡献的自动识别。如国际概念网络联盟)提出的纳米出版物,由声明、出处和出版物信息组成来表示可出版信息最小单元。其中,声明使用主-谓-宾结构表达的思想最小单元;出处用于描述如何得到此聲明的情景信息,包括方法和归属元数据;出版物信息将前两者作为一个整体进行表达。
  对出版物结构建模主要是对文档的构成要素进行结构化组织,对象和关系的语义构建。A.Bardi等人提出的增强型出版物元数据模型,描述了出版物的结构和语义特征。该模型包括六部分:文档构成、嵌入部分、参考与引用、可执行和可生成,并对各部分进行了对象和关系的RDF描述和序列化。J.Kircz提出的模块化模型中,模块被定义为具有独一无二特性、自含概念表示的信息单元,将论文看成是整合了数据集、图像、音频、视频等模块的对象。另外,为便于交流,模块被连接成固定单元。
  对出版物全流程建模主要是对出版全流程(包括文档信息和出版信息)的描述,支持全工作流的交互和共享。王文清等人报道的出版物内容资源本体模型定义了多个类、属性和约束,可对多种出版物数字资源进行统一建模和描述。此外,PUBO采用了OWL描述逻辑,可自动验证模型的逻辑完整性,实现了资源统一管理、互相关联与多系统复用。Hunter提出新信息格式的科学出版包,可用于封装原始数据、来源产品、算法、软件、文本、相关上下文环境以及元数据,从而满足科学家对科学结果的操作需求。
  在论文编辑工具方面,典型的有BioLit项目和SCOPE项目。BioLit项目中可使用基于XML的写作工具,利用美国医学图书馆的文档类型定义存储标准化且机器可读的出版物,该工具为开放文献和生物学数据的集成提供方便,使用PLoS和Protein Data Bank(PDB)的全部语料做测试。
  2.关键技术研究
  XML。全称为可扩展标记语言,是根据万维网本身的特点从SGML所衍生出来的简化格式。XML的设计目标是提出一种非常简单的标记语言,并尽可能地减少抽象概念。XML提供了一个标准,使得开发人员可以根据实际需要定义自己的新的置标语言,并可为这个置标语言规定它特有的一套标记。与HTML相比,XML最大的优点是它不是固定的标记,而是允许开发人员根据它所提供的规则,定义数量不限的标识和属性来描述文档中的资料,允许嵌套的结构描述。
  RDF。全称为资源描述框架,其目的主要是提供一种通用的元数据结构以满足所有领域的使用要求使应用程序之间能够在Web上交换元数据,以促进网络资源的自动化处理。RDF的基本资料模型包括了三个对象类型:①资源。所有以RDF表示法来描述的东西都叫做资源,使用统一资源标识来命名,它可以是一个网站,可以是一个网页,可以只是网页中的某个部分,甚至是不存在于网络的东西,如纸本文献、器物、人等。②属性。属性是用来描述资源的特定特征或关系,每一个属性都有特定的意义,用来定义它的属性值和它所描述的资源形态,以及和其它属性的关系。RDF的在概念上和传统的属性是相同的。③陈述。特定的资源以一个被命名的属性与相应的属性值来描述,称为一个RDF陈述,其中资源是主词,属性是述词,属性值则是受词,陈述的受词除了可能是一个字符串,也可能是其它的资料形态或是一个资源。
  关联数据。是W3C建议的用来发布和联接各类资源的一种规范,简单地说,关联数据就是一些RDF格式的数据,使用三元组(主体,谓词,客体)来表示资源,它希望用一种通用的机制将网络中的数据进行发布,使任何人和机器都内读取和复用万维网上的数据。语义万维网将资源定义为“任何有URI标识的东西”,分为信息资源和非信息资源两类,信息资源用以表达任何信息,通常以某种编码的文件形式而存在;非信息资源用以指代大千世界中的各类实体对象,可以是自然界、人类社会以及人类意识所创造的精神世界的所有对象。   本体。本体(ontology)是实体和关系之间的一种形式化表达,起源于哲学领域,后引入进计算机领域,本体制定了一种规范,可以在语义和知识层次上描述知识,具有结构化的特点。本体以树状结构存储,相邻层次的节点之间有严格的包含关系。本体包含四层含义:概念模型、明确、形式化和共享。具有良好的概念层次结构和对逻辑推理的支持,可以通过层次网络图来表示,图中的每个节点对应一个概念,节点之间通过有向边来连接,表示概念与概念之间的关联关系。
  3.实践研究
  目前,出版机构、信息服务商、图书馆等建设主体正积极开展语义出版实践,如RSC、Elsevier和BBC等。
  RSC。RSC是全球知名的化学科学出版社之一,目前已出版44个同行评议期刊,提供一系列在线数据库和文献更新服务,是语义出版领域的重要范例。2007年,RSC提出“Science Come Alive”并进行积极探索,设立的RSC Prospect项目旨在通过语义增强实现期刊文章的机器可读,丰富RSC期刊在线出版的功能。RSC语义出版模式的关键是利用本体和唯一的化合物标识符,使文章可被计算机识别。RSC的技术编辑在文章中标识出化合物、概念和数据,将其链接至相关的学术环境,极大增强了RSC文章对学科知识的揭示和关联能力。
  RSC语义出版的核心要素包括:①关联化学学术环境。为更好地实现化学学科相关内容和数据的读取、对比,RSC将本体与自建的基于Web的化学结构数据库关联,形成RSC语义出版自有的基础信息系统。②结构化描述与标记。基本流程包括XML预处理、XML编辑与修正、结合语境和主题领域对应的XML标注。③嵌入式HTML的呈现。RSC语义出版的学术期刊以RichHTML形式发布,且标记为RichHTML的文章可实现全文嵌入式HTML标记,并以不同颜色突出显示定义的词汇,实现语义分类。
  Elsevier。是全球领先的多媒体出版集团和科学、技术、医学信息产品和服务提供商,其在语义出版方面进行了积极的尝试与探索,也取得了一定的成果,典型的有Article of the Future项目、ClinicalKey平台等。Elsevier的语义出版路线图阐释了语义出版的最终目标是使期刊论文变为富含语义知识的智能内容。
  英国广播公司(BBC)。2010年世界杯网站是BBC动态出版的首次成功应用,如今,BBC已将动态语义出版由体育领域扩展到新闻、教育等多个领域。BBC动态领域出版模式是按需重组的机制,即根据应用层用户动态查询的检索词,通过服务层获取语义相关的内容。该模式分为了数据层、服务层和应用层。其中,数据层负责文字、图片、视频等多媒体类型资源的管理,利用自然语言处理技术对内容进行基于领域本体的命名实体识别(实体抽取),并将识别结果以元数据的形式存储在RDF三元组中;服务层负责对应用层的请求响应以及对数据层的内容调用,是动态语义出版实现按需重组的核心,主要利用关联数据等对调用的内容进行语义增强,丰富用户的检索结果;应用层负责按需重组在内容上有语义关联的不同资源并将其以一定的方式呈现给用户。
  4.结束语
  国外的出版组织和图书馆对语义出版高度关注相比,我国的研究明显滞后。从广度上看,只有中国知网、万方等少数学术数据库服务商和出版机构开展过语义技术的应用;从深度上看,当前研究多集中在语义出版的概念、形式、特征以及国外相關项目的介绍和分析上,理论探讨较多,应用研究较少。“需求决定服务,服务选择资源”,语义出版作为一种创新服务模式,对馆藏资源组织与利用提出了更高要求,是信息服务产业链中至关重要的环节之一。
  参考文献
  [1]Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing[J].Learned Publishing,2009(22):85-94.
  [2]王晓光,陈孝禹.语义出版:数字时代科学交流系统新模型[J].出版科学,2012,20(04):81-86.
  [3]程维红,任胜利,沈锡宾,方梅,王应宽.中国科协科技期刊数字出版及传播力建设[J].中国科技期刊研究,2014,25(03):340-345.
  [4]汪庆,任慧玲.新技术环境下STM出版发展趋势探析[J].科技与出版,2014(09):123-127.
  [5]彭希珺,张晓林.国际学术期刊的数字化发展趋势[J].中国科技期刊研究,2013,24(06):1033-1038.
  [6]许鑫,毛璐,江燕青.基于数字资源聚合的学术期刊语义出版研究[J].数字图书馆论坛,2019(07):2-8.
  [7]Nanopub.org.What is a Nanopublication[EB/OL].[2019-12-24].http://nanopub.org/wordpress/?page_id=65.
  Marcondes C H.A semantic model for scholarly electronic publishing[EB/OL][2020-10-24].http://www.ceur -ws.org/Vol-721/paper-06.pdf.
  [8]Bardi A, Manghi P.Enhanced publications:data models and information systems[J].Liberquarterly,2014, 23(4):240-273.
  [9]Kircz J G.Modularity:The Next Form of Scientific Information Presentation?[J].Journal of Documentation, 1998,54(2):210-235.
  [10]Kircz J G.New Practices for Electronic Publishing 2:New Forms of the Scientific Paper [J].Learned Publishing,2002,15(1):27-32.
  [11]王文清,刘春彤,张月祥,陈凌.PUBO:面向出版的数字资源本体建模[J].大学图书馆学报,2015,33(03):88-95.
  [12]Hunter J. Scientific Publication Packages-A Selective Approach to the Communication and Archival of Scientific Output[J].Journal of Digital Curation,2006,1(1):3-16.
  [13]Fink J L, Bourne P E. Reinventing Scholarly Communication for the Electronic Age [J].CTWatch Quarterly, 2007,3(3):26-31.
  [14]Enhanced Publications[EB/OL].[2019-12-24].http://www.doc88.com/p-873117284280.html.
  [15]翁彦琴,李苑,彭希珺.英国皇家化学会(RSC)——科技期刊语义出版模式的研究[J].中国科技期刊研究,2013,24(5):825-829.
  [16]王莉莉,栾冠楠.英国广播公司(BBC)动态语义出版模式研究[J].图书情报工作,2017,61(08):126-132.
其他文献
【摘 要】矿山的开采是我国经济来源的重要途径之一,在这种情况下,我们就更应该注意在矿山开采过程中应该注意的安全事项,合理地运用地质灾害治理策略,保证开采过程中的安全。本文根据现如今矿山开采地质勘查以及地质灾害治理方面仍然存在的问题进行简单地分析,并提出相应的解决方法,仅供参考。  【关键词】矿山开采;地质勘查 ;灾害治理;探究方法  引言  矿山的开采是我国经济来源的重要途径之一,为了确保开采过程
期刊
【摘 要】在现阶段的影视表演教学工作當中,逐渐面临更高的要求与标准, 需要教师真正提高自身的专业能力,能够通过完善现有的思想理念,不断为学生提供更加实际有效的教学与指导。其中,中国传统礼仪文化的发展能够为戏剧表演教学产生重要的影响作用,从而可以成为学生日常学习的重要切入点,能够通过相互之间的融合发展,尽力彰显特色化的突出优势的实践价值。本文能够对传统礼仪文化进行简要概述,并实际分析中国传统礼仪文化
期刊
【摘 要】目前钢结构应用范围越来越广泛,焊接是保证钢结构能够固定连接的主要方式,但由于受到施工技巧、管理方式、外形尺寸以及多方面因素影响,在钢结构焊接过程中往往存在一些问题,从而影响钢结构整体质量。本文针对钢结构焊接过程中存在的问题进行分析,并有针对性地提出处理优化方式,意在提高钢结构的焊接质量。  【关键词】钢结构焊接;存在问题;处理策略  引言  钢结构顾名思义是由钢制材料组成的结构形式,具有
期刊
【摘 要】采用2017-2019年度统计数据对河海大学图书馆采购的外文期刊库进行分析和评价,分析文献学科覆盖,对其进行频次统计,进一步探讨其核心保障率问题,并通过标准COUNTER报告调查外文期刊文献全文下载、引用及未保障率,找出外文期刊数据库在本校的运行规律及利用中存在的问题等。为图书馆外文期刊数据库订购决策和学科保障提供参考,针对如何提高利用率及外文期刊本地化开发利用,提出了外文期刊文献保障的
期刊
【摘 要】本文简要介绍了水上飞机的设计特点和注意事项,对于各个部件不同于一般陆基飞机的设计特点给出评述,并针对水上飞机的船体参数设计进行总结。  【关键词】水上飞机;船体参数  引言  目前,我国的通用航空事业随着国民经济的增长和科学技术的进步而有了突飞猛进的发展。水上飞机也进入了快速发展时期。然而,水上飞机的设计与陆基飞机考虑的要点不同,船身设计更是完全不同。本文通过多篇文献的积累和总结,归纳出
期刊
【摘 要】737NG飞机发动机起动故障率较高,发动机启动失败可能与起动机、起动活门、控制电路、燃油、气源、点火、外界环境因素等多个方面有关,本文将重点探讨与起动机相关的故障,并结合案例从故障现象差异、测试判断方法、处理应对措施等为预防和排除起动机故障提供参考。  【关键词】737NG;CFM56-7B;起动机;径向轴承失效;金属屑  Abstract: 737NG aircraft engine
期刊
【摘 要】机械制造需要灵活运用自动化生产技术,让资源能够合理高效运转,促进资源长期发展,达到可持续目的。本文根据节能设计与机械制造进行分析,探讨机械自动化特點,展现出节能设计以及机械自动化在工作中的运用,为以后机械制造节能设计带来参考价值。  【关键词】节能设计;机械制造;自动化  引言  机械制造在企业中影响最大的便是计算机信息技术专业。机械制造自动化时自动学科,能够让工业快速发展,在机械创造中
期刊
【摘 要】阐述了一种双组份纳米改性环氧清漆在某型相控阵雷达天线罩上涂覆时产生的影响。该纳米改性环氧清漆涂层不仅确保了雷达天线罩良好电绝缘性能和高频电磁透波性能,同时又有着优异的耐候性能,还大大提高了天线罩面漆漆层的附着力,最终保证雷达天线罩的可靠性,增强了其环境适应性。  【关键词】环氧清漆;电磁透波性;漆层附着力  引言  玻璃钢是以合成树脂为基体材料、玻璃纤维为增强材料的一种复合材料,它由于
期刊
【摘 要】随着近年来经济的发展,我国建筑行业不断壮大,机械旋挖桩施工技术是我国建筑行业常用的技术之一。机械旋挖桩施工技术有着很多好处,如工作效率高、能源消耗少、噪声小,施工时对附近的居民影响较小。本文通过对机械旋挖桩施工技术的剖析,对该项技术的使用提出意见,并说明了在实际操作中可能遇到的的问题及解决措施。使机械旋挖桩施工技术得到良好运用,发挥出真正的技术优势。  【关键词】机械旋挖桩施工技术;质量
期刊
【摘 要】随着城市化的快速推进,城市中高层建筑越来越多。但是,高层建筑比一般建筑遭雷击的概率要大得多。为了有效提升高层建筑的安全性,做好高层建筑防雷装置检测工作尤为必要。基于此,本文首先分析高层建筑物防雷装置日常维护和检测的重要性,然后阐述高层建筑物防雷系统的构成,最后提出高层建筑物防雷检测实施要点和注意事项,为确保高层建筑的防雷安全提供参考。  【关键词】高层建筑物;防雷装置;检测要点  引言 
期刊