科学大数据时代数字图书馆的新定位与新挑战

来源 :图书与情报 | 被引量 : 0次 | 上传用户:wx418854188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:“第十六届数字图书馆前沿问题高级研讨班”于2019年10月在成都召开,研讨班的主题是“数据科学、数据管理与数据应用”,来自国内外80余家高校和科研机构的260余名图书馆员、科研人员及师生等,围绕国内外数字图书馆在科学数据管理与服务领域研究与服务实践的最新进展和前沿动态等展开了深入交流和讨论,展示了数字图书馆在开放科学和科学大数据时代的新定位、新使命和新发展。文章从开放科学背景下科学大数据领域的发展态势、数字图书馆在科学大数据领域的定位与挑战、新技术对图书馆业务体系的深刻变革和影响等三个方面,讨论和分析了数字图书馆的发展现状以及未来的发展情景,特别是指出了未来图书馆(文献情报机构)将成为以数据知识生态系统的管理和服务为核心的“集成化跨界知识管理与服务咨询机构”的大方向。
  关键词:数字图书馆;开放科学;科学大数据;数字图书馆前沿问题高级研讨班
  Abstract The 16th Advanced Digital Library Seminar was held in Chengdu in October 2019. The subject of the seminar is "Data science, data management and data application". More than 260 librarians, researchers, teachers and students from more than 80 universities and scientific research institutions had attended this seminar. The experts exchanged and discussed the international latest progress and frontier trends of digital library research and service practice in the field of scientific data management and service, and showed the new positioning, mission and development of digital library in the era of open science and scientific big data. This paper discusses and analyzes the current situation and future development prospect of digital library from three aspects: the development trend of scientific big data field under the background of open science, the positioning and challenges of digital library in the field of scientific big data, and the profound change and influence of new technology on library business system. In particular, this paper points out that in the future, library (documentation and information institution) will become a "Integrated cross-border knowledge management and service consulting institution" with the management and service of data knowledge ecosystem as the core.
  Key words digital library; open science; scientific big data; Advanced Digital Library Seminar
  2019年10月25-26日,由中國图书馆学会专业图书馆分会、高等学校图书馆分会、数字图书馆研究与建设专业委员会和四川省高校图工委主办,中国科学院成都文献情报中心承办的“第十六届数字图书馆前沿问题高级研讨班”(以下简称“研讨班”)在成都成功召开,本届研讨班的主题是“数据科学、数据管理与数据应用”。研讨班设置了5场国内外数字图书馆领域著名专家特邀大会报告、15场国内专家主题大会报告、4场数据技术专题培训会、10场优秀投稿海报报告以及1场图书馆馆长论坛。来自国内外80余家高校和科研机构的图书馆员、科研人员及师生,围绕开放科学和科学大数据时代国内外数字图书馆在科学大数据管理与服务领域研究与服务实践的最新进展和前沿动态展开了深入交流和讨论,聚焦开放科学和科学大数据信息环境下,作为科技知识管理主力军的科技图书馆(文献情报机构),如何在过去二十年数字图书馆发展的坚实基础上,以科学大数据知识管理与知识服务为新任务,把握新定位、承担新使命和取得新发展。
  在特邀报告环节,中国科学院文献情报中心张晓林研究员、香港中文大学(深圳)图书馆馆长张甲教授、美国肯特州立大学图书情报学院曾蕾教授、美国雪城大学信息研究学院秦健教授、原美国密歇根大学中国信息中心主任鲍曙明教授分别围绕“建设研究型大学的开放智能知识基础设施”“从数据到知识发现服务”“开放数据的信息服务”“生物样本库的元数据关联与规范机制”“面向研究与教学的未来数据实验室”等主题作了高水平的学术报告。在专家大会报告环节,来自中国科学院有关单位、上海图书馆、美国加州大学、湘潭大学、中国农业科学院、四川大学、美国化学文摘社等国内外多家高校和机构的15位专家介绍了各自在科学大数据领域的最新研究进展与服务实践,主题涵盖5G与未来智慧图书馆、科学数据管理与开放共享、多源异构数据融合、数字人文、科学数据应用、科学数据管理政策等多个方面。报告直面科学大数据管理与服务问题,分析应对对策,介绍发展前沿,揭示启示方向,多方位多层次论述了数字图书馆在科学大数据领域的最新工作进展和服务实践。   研讨班注重理论与实践相结合,设置了“科学数据基础设施、数据策管与数据服务”“基于GIS的历史地图的处理”“国际图像互操作框架IIIF”“关联数据与SPARQL语言”等4场科学数据方面的专业培训。此外,还设置了图书馆馆长论坛和海报讨论环节。来自中科院成都文献情报中心、复旦大学图书馆、四川大学图书馆、香港中文大学(深圳)图书馆等单位的图书馆馆长聚焦大数据与5G对图书馆发展的影响、数字化时代图书馆的数字化发展战略与行动计划、数字化时代图书馆员的能力与素质等问题,从不同的角度展望了图书馆应对大数据和5G时代冲击的对策选择,介绍和讨论了图书馆的数字化长期发展规划、以及图书馆员在智慧图书馆发展过程中的能力素质要求及责任担当。海报讨论则充分展示了各类型图书馆的最新服务发展态势和图书馆数字知识产品研发案例。
  纵观本次研讨班,与会的专家和学者围绕着开放数据、数据管理、数据分析、知识图谱、数据服务、5G技术与未来智慧图书馆等主题的理论方法与实践展开了深入学术讨论,展示了开放科学与科学大数据时代数字图书馆所面临的新定位与新挑战,呈现出未来数字图书馆在知识服务需求和信息数据技术双重驱动下较为清晰的发展图景。
  1   开放科学背景下科学数据领域的发展态势
  1.1    科学数据纳入国家科技发展战略
  为占据科学数据研究制高点,加强国家科技创新能力,各国相继将科学数据的发展纳入国家科技发展战略,从政策法规、机构建设和人才队伍等多个维度,全方位地部署实施科学数据相关计划与行动以促进本国科学数据领域的发展。美国在2012年和2015年两次出台了国家大数据计划,用于促进美国在海量数据中进行科学发现与科技创新的能力。其后,美国国家科学基金会(NSF)、科学与技术政策办公室(OSTP)、国防部(DOD)、国家航空航天局(NASA)等机构都发布了各自的科学数据管理政策。为贯彻科学数据的管理政策,各机构还纷纷成立专门的部门来管理科学数据的共享与安全,如美国国立卫生研究院(NIH)就成立了科技政策办公室,专门负责具体制定科学数据管理相关的科技政策。2013年,英国政府发布《英国数据能力发展战略规划》,并成立了信息经济委员会(EIC)来制定相应的战略方针并保障规划的有效实施。英国开放数据研究所(ODI)和英国图书馆与情报专家学会(CILIP)等机构还开展了数据人才培养计划,协助科研机构和图书馆建立多层次的科学数据人才培养体系,保障密集型科研的数据需求[1]。此外,加拿大、日本、澳大利亚、法国等国家也纷纷发布科学数据管理的政策法规,并成立相关机构来保障政策的落地实施。
  我国近年出台的国家级战略规划中多次提出要将数据资源作为社会经济发展的核心推动力,通过国家层面建设科学数据重大基础设施,出台相关政策保证科学数据的共建共享,利用科学数据推动解决科研进步和社会发展等重大问题。
  1.2    多方推动科学数据开放与共享
  2000年,国际科学数据委员会(CODATA)制定了《网络时代的科学原则》,首次提出科学进步与开放数据息息相关,各方要在综合权衡利弊的基础上进行法律的制定和数据的共享。2006年,经济合作与发展组织(OECD)制定了《公共资金资助的研究数据获取原则与指南》,提出13条原则用于指导各成员国制定并完善各自的科学数据共享政策[2]。美国肯特州立大学曾蕾教授认为开放科学、开放数据、开放存取等信息服务和获取方式对科学研究的意义十分重大,科学数据管理要遵循FAIR原则(“四可原则”)[3],即可发现(Findable)、可访问(Accessible)、可交互(Interoperable)和可重用(Reusable)。FAIR原則进一步诠释了现代科学数据共享的基本理念,优化和推动科学数据的再利用,该原则已在美国、欧盟、澳大利亚等地得到推广和普及。
  除国际组织以外,全球各国政府和科学数据管理机构也出台了一系列法律和政策以推动科学数据的开放和共享。1985年,美国行政管理与预算局发布A-130号通告《联邦政府信息资源的管理通告》,确立了美国信息资源管理的总体框架。在此框架基础上,美国各大科研资助机构都分别制定了资助项目在开放科学数据方面的具体要求和政策。英国研究理事会(RCUK)于2011年发布了数据管理与共享政策,要求资助的学术研究和人才培养计划都必须遵循这些原则。英国商业、创新与技能部(BIS)还发布了《促进增长的创新和研究战略》,战略报告中进一步强调了开放数据对科技创新的重要性以及促进数据开放的办法[4]。日本于2013年开始构建政府开放数据推动蓝图,并成立开放政府数据委员会、公共数据工作组等专门的部门来负责协调和制定开放数据的政策和措施。日本政府颁布的《开放政府数据战略》提出创建开放数据案例并制定开放数据利用环境的实施策略,以开放和共享政府数据[5]。可见,科技发达国家在科学数据的管理和开放共享的制度建设和实践上,远远走在国际前列。
  2018年,我国国务院办公厅印发了《科学数据管理办法》(以下简称“《办法》”),《办法》强调了科学数据管理和共享对我国科研和经济社会发展的巨大推动作用。湘潭大学邢文明副教授在此次研讨班的报告中从科学数据的管理体制、共享机制和安全措施三个方面对《办法》进行了全面解读,认为《办法》意义重大,不但理顺了我国科学数据管理体制,并且完善了数据共享机制和安全措施,具备很好的参考和现实价值,可以有效地推动我国科学数据工作的可持续发展。
  1.3    加快科学数据基础设施和平台建设
  基础设施和平台建设是科学数据建设的重要任务,也是科学数据开放和共享的前提。2011年,欧盟第七框架计划资助的GRDI2020(全球研究数据基础设施10年愿景)项目发布了《全球科学数据基础设施:重大数据挑战》报告,其中提出了构建全球科学数据基础设施所面临的主要挑战,并提出了10项建议以推进科学数据基础设施的建设。   目前,基础设施和平台按照层次和规模可以大概分为三类:(1)国际学科组织或国家建设的综合性科学数据管理平台。这类平台的目标是管理和共享各个学科来自全球或本国的科学数据,如美国国家生物技术信息中心(NCBI)、英国数据存档库(UKDA)、我国国家科技资源共享服务平台等;(2)服务于专业科技领域的学科数据管理平台。主要用于管理和服务某区域或专业学科领域的科学数据,如青藏高原科学数据中心等;(3)服务于本机构的机构知识库,多由高校和研究机构建立。如美国麻省理工学院机构知识库、英国南安普顿大学开放机构知识库、中国科学院机构知识库等。在平台软件方面,目前科学数据管理平台的构建方式主要分为两种类型:开源软件和商业软件。常用的开源软件包括Dataverse、DKAN、DSpace等。其中,由哈佛大学开发的Dataverse平台集成了数据管理、权限管理、检索和分析等功能,目前在全球已经有超过5600个用户,北京大学和复旦大学等国内高校都基于该系统建设了自己的开放研究数据平台。常用的商业软件包括Teradata、Nesstar等。其中,由挪威研究数据中心(NSD)开发的Nesstar支持用户在线发布数据和元数据,并提供搜索、浏览和可视化分析等功能。目前,全球有100多家机构用户在使用该系统[6]。
  我国从2003年开始建设国家科技基础条件平台,其中科学数据平台是重要的组成部分,目前已经建成包括国家人口与健康科学数据共享平台、国家农业科学数据共享中心等8个科学数据共享平台。2019年,国家基因组科学数据中心(NGDC)成立,目前已建成包括组学原始数据归档库、基因组、基因表达等一系列数据库,用户来自全球70多个国家和地区。中科院计算机网络信息中心正高级工程师胡良霖在此次研讨班上以中国科学院40年科学数据管理与开放共享的经验为出发点,梳理了我国科学大数据的发展历程,介绍了中国科学院科学数据资源管理、技术和服务体系,以及在科学数据出版、科学数据存储库和唯一标识服务平台方面所做的新尝试。
  1.4    科学数据出版成为科学界的共识和趋势
  科学数据出版是开放出版领域一个相对新兴的议题,数据出版一方面可以保障科学数据共享者(提供者)的信誉和权益,解决数据知识产权问题,提高研究人员共享科学数据的积极性;另一方面也便于科学数据使用者查找和利用数据,提高数据的可用性和复用性。此外,随着科学数据引用的发展和规范,利用论文和科学数据之间建立起来的引用关联关系,可以帮助学科领域进行知识发现,提高科学数据的使用价值。目前,《Nature》和PLoS等期刊或出版机构都要求其作者在提交论文的同时,还必须提交研究成果相关的科学数据或数据可用性声明,以方便读者和科研人员获取和重用论文的科学数据,加快科学研究进程。数据出版的探索和成功实践,充分说明了科学界对科学数据出版的高度认可,科学数据出版成为科学大数据发展趋势之一。
  从数据出版的生命周期来看,数据出版的关键问题在于数据标识和数据引用。目前,数据出版中应用较多的数据标识包括数字对象标识符(DOI)、开放链接(OpenURL)、统一资源名称(URN)等,其中以DOI的研究和应用较为广泛。科学数据出版所需的DOI通常由注册代理机构及其成员单位负责分配,目前共有欧盟出版办公室(OPOCE)、中国知网(CNKI)、DataCite等10个代理机构负责DOI注册和分配。数据引用也是科学数据出版的关键环节,当前关注的焦点主要集中于引用标准、引用技术和引用行为等问题,但科学数据引用尚无一致的标准,不同数据库、不同学科领域的差异较大。其中,以哈佛大学提出的“定量数据学术引用的建议标准”、FORCE11等团体联合发布的“数据引用原则联合声明”、DataCite发布的“研究数据出版与引用元数据方案”为主要标准和原则[7]。
  面向多学科领域科学数据出版的期刊——《中国科學数据》,是我国在科学数据出版方面的具体实践。期刊要求作者在投稿时提交论文相关的数据集,并将论文和数据集通过DOI实现关联,同时通过同行评议来保证数据质量。在加强我国科学数据出版方面,当前要结合我国科学数据开放共享的进程,建立和推广标准的科学数据出版流程体系,开发期刊出版和科学数据存储关联融合平台,推动我国科学数据出版的健康发展。
  2   数字图书馆在科学数据领域的定位与挑战
  由科学数据领域的快速发展态势和趋势可以看出,数据已经不折不扣地成为科技创新、商业发展、社会管理、政府治理、社交网络的战略性资源,而科学大数据日益成为科技领域创新竞争的关键战略科技资源。可以毫不讳言地说,科技强,则国家强;而数据强,则科技强。未来,真正是“得数据者得天下”。但随着科技创新跨越发展,科技数据大量产生,致使科技大数据体系的有效管理、高效服务、深度应用等成为国家和科技界面临的重大挑战。图书馆作为专业知识管理与服务机构,管理和服务科学大数据这类新型知识体系,也应当成为其战略新使命。但图书馆囿于其传统理念、定位和社会角色,目前对数据的管理与服务,涉及层次是比较浅显和局限的。图书馆在未来能不能抓住“科学数据管理、分析与服务”这样一个全新的、更为广阔的知识管理发展方向,直接决定图书馆这一类知识管理与服务机构的兴旺发达、生死存亡。
  图书馆如果要实现集成管理和组织这些纷繁复杂的开放科学数据并提供数据分析服务,就必须科学地遵循科学数据的生命周期规律,提供“用户需求导向”的数据内容管理、“科学问题导向”的科学数据分析、“决策目标导向”的科学数据服务和“技术为王导向”的优质高效服务。
  2.1    科学数据生命周期模型
  科学数据贯穿于科研活动的全过程,图书馆的科学数据服务只有融入到用户的科研全过程中才能体现图书馆的价值,重塑图书馆的新型服务能力。伴随着科研全过程,科学数据的生命周期通常是指从数据产生、处理加工、出版发布到再利用的往复循环流程。据统计,目前科学数据生命周期模型已超过40种[8],包括英国数字监管中心(DCC)提出的监管生命周期模型、美国密歇根大学ICPSR数据中心提出的科学数据生命周期模型、英国数据归档中心(UKDA)提出的数据生命周期模型等。   尽管各个模型将科学数据生命周期划分成不同的阶段,但是经过归纳总结共性阶段,并结合图书馆数据服务的经验和特点,科学数据生命周期可以分为数据产生、数据收集、数据处理和分析、数据共享和出版、数据利用等5个阶段,而数据存储则贯穿于整个科学数据生命周期。围绕科学数据生命周期,并结合图书馆自身的特点和经验,图书馆要开展科学数据服务可以围绕数据内容管理、科学数据分析、科学数据服务等展开,并坚持以数字信息技术为优质高效服务的核心保障。
  数据内容管理服务主要在科学数据产生和收集阶段开展,图书馆可提供的服务包括数据规划和数据咨询等。科学数据分析服务主要在数据处理和分析阶段开展,图书馆可提供的服务包括数据组织和加工、数据分析和知识发现等。科学数据服务主要在数据共享和出版、数据利用阶段开展,图书馆可提供的服务包括数据共享服务、数据利用和培训服务等。而这一切服务全部建立在数据存储服务和信息技术保障的基础之上。
  2.2    “用户需求导向”的数据内容管理
  数据规划是一切科学数据服务的基础,科学数据规划不但使得科研人员在生产、保存和利用科学数据时有章可循,也能保证数据的一致、准确和可追溯性。如美国麻省理工学院图书馆在科学数据项目开始阶段提供数据规划服务,参与并建议科研人员使用数据管理计划工具DMPTool来制定数据管理计划[9],解决用户在政策要求和资源查找方面的问题。主要的服务包括:提供资助机构数据管理政策和数据收集分析方面的指南、数据访问和安全政策的选取指导、数据管理评估计划等。
  數据咨询建立在图书馆参考咨询服务体系之上,目前主要通过专业学科馆员团队嵌入科学数据全生命周期的相关活动中,为科学数据发布者和使用者提供各种问题咨询,咨询方式主要通过传统参考咨询所采用的面谈、邮件或社交软件等方式进行。然而相比于传统参考咨询,科学数据的咨询服务要求学科馆员拥有较深的学科背景知识,用户往往容易对咨询的精准性和权威性产生疑问。为解决这个问题,很多图书馆开始构建更加开放的科学社区,邀请学科领域专家共同参与解答用户问题。如美国弗吉尼亚大学图书馆成立了专门的科学数据咨询组(SciDaC Group),咨询组通过Lib Guides系统从科研项目的数据生命周期考虑来帮助用户做出决策,目的是使得用户数据管理变得更为容易,以便提高用户分享和使用数据的积极性。
  科学数据的价值不是与生俱来的,而是在其生命周期过程中逐步体现出来的,其自身价值在于对其利用的水平以及利用过程中创造出来的价值,没有被开发和利用的数据是毫无价值的。因此,科学数据资源的建设不能再简单地按照图书馆的主观意愿,而应该以用户需求作为导向,针对当前国家经济社会发展和科研机构发展的需要,有针对性地收集、组织和加工科学数据资源。图书馆可以依靠数据规划和数据咨询作为主要手段,在科学数据资源建设初期嵌入到相应科技领域的科研活动中,基于用户的数据管理需求开展数据内容管理,用户需求导向应成为数据内容管理的根本原则。
  2.3    “科学问题导向”的科学数据分析
  数据组织和加工包括对数据的组织、加工和关联等,传统图书馆资源组织加工主要是将文献资源这类“粗颗粒”的知识单元进行数字化、网络化、体系化和语义化的处理。传统文献资源往往来自于科研成果的最终产出,具有较为规范和结构化的格式和标准。而科学数据可能来自于科研过程的各个阶段,具有类型众多、形式各异、学科差异明显等特点,特别是科学数据是“细颗粒”的知识单元,给数据组织和加工工作提出了更高更细致的要求。如斯坦福大学图书馆就利用元数据、RDF和OWL等技术,帮助用户进行科学数据组织和加工工作。
  数据分析和知识发现是指通过各种技术手段从海量数据中提炼出潜在的、有价值的信息和知识,重点是基于大数据分析各种关联关系和演化规律,所谓知识发现即找出隐含在大数据中的知识关系,是目前解决海量数据陷阱的有效手段。科学数据通过数据分析和知识发现,可以达到科学数据深度揭示和数据增值的目的。如普林斯顿大学图书馆推出的数据与统计服务(DSS)[10],一方面可以为研究人员提供案例分析、实验数据等科学数据,另一方面还可以帮助研究人员利用Stata、SPSS等统计软件进行数据统计分析,为全校师生在科学数据的定量分析方面提供数据和软件支持。
  科学数据分析是科学数据生命周期中的重要一环,是展现和提高科学数据价值的关键手段,也是图书馆参与科研项目层次深浅的直接体现。由于当前科学数据的类型复杂、分析手段千变万化、技术方法日新月异,不可能利用单一手段方法来完成不同领域的科学数据分析。因此,科学数据的分析工作,要坚持以科学问题为导向,从专业学科领域背景出发,科学地选择数据分析手段和软件工具,才能针对性地解决不同领域特定问题的科学数据分析问题的需求。因此,科学问题导向是科学数据分析的根本原则。
  2.4    “决策目标导向”的科学数据服务
  科学数据是服务于科学研究、科技发展等不同层次的决策目标,科学数据的生命在于共享和重用。数据共享和出版是增强科研成果复用、提升科研数据价值的有效手段,而共享政策和标准规范对科学数据共享和出版起着决定性的作用,是影响数据共享和出版效果的关键性因素。美国埃默里大学图书馆为用户提供了全面的科学数据共享与出版服务,其中就包括科学数据资助政策咨询、科学数据引用规范检索和科学数据出版相关服务,可以帮助用户了解相关政策法规和标准规范,最终完成科学数据共享和出版。
  数据利用和培训是加强科研人员数据管理技能、提高数据素养的重要途径。培训包括主题研讨班、培训课以及在线教育等多种形式,内容涵盖科学数据管理的基本知识、科学数据共享和使用方法、科学数据分析工具软件使用等。如美国伊利诺伊大学香槟分校图书馆就定期举办科学数据培训,除此之外,学校还进行数据管理硕士培养,通过系统的课程学习和大量的实习机会,培养科学数据管理的专业型人才。   科学数据服务是科学数据生命周期的最终环节,图书馆由于其知识服务和知识扩散传播的传统优势能力,在科学数据服务上无疑具有巨大优势。图书馆要充分借鉴和吸纳过往数据服务的成功经验,充分把握和发挥自身在数据服务方面的优势,以科学研究、科技发展等各类决策目标为导向,解决科学家和科学研究的“数据痛点”。寻求与其他机构、部门的合作机会并建立专业型科学数据服务与培训团队,促进科学数据的全面开放共享,更好地服务于科研人员和科研活动。
  2.5    “技术为王导向”的优质高效服务
  大数据服务要求高效率。数字信息技术的发展为科学数据的管理和共享服务提供了强大的支撑和手段,充分利用云计算、大数据等技术,通过整合数据资源、设施与服务,不断推动服务创新,是提供优质高效科学数据服务的关键。另外,很多新兴技术也对加强科学数据开放共享、提高科学数据服务效率起到了助推作用。
  在科学数据管理层面,区块链技术的诞生,为科学数据传输和共享安全提供了新的强大的解决方案。通过加密算法、共识机制和溯源等技术,可以保障数据的质量和安全性。去中心化存储和通信方式,可以大幅提升科学数据的共享效率。可信存储的发展为科学数据安全保护和高效管理提供了另一条发展路径,彻底杜绝了数据私自篡改和删除的可能性,并且在分布式部署和存储性能方面更为优秀。
  在科学数据分析层面,实时分析技术的发展,为海量科学数据及时高效地处理提供了可能。以天文领域地面广角相机阵(GWAC)全天短时标观测系统为例,15s的采样和处理周期对数据管理系统提出了諸多要求,包括多镜头数据交叉认证、数据持久化、实时瞬变源发现以及数据实时查询等。最终,通过大规模并行处理技术(MPP)和基于流式内存数据的数据流查询处理技术,实现了科学大数据实时存储、分析和秒级查询响应[11]。
  在过去的20年发展中,图书馆已经建立数字图书馆知识服务体系,未来要提供优质高效的科学数据服务,必须树立“技术为王”导向和强烈意识,用新技术应对大数据,充分利用机器智能、语义分析、计算平台等的前沿技术。不但要建设自身的信息技术团队,还要挖掘和依靠外部的技术力量,多方参与共同推进图书馆科学数据服务的技术升级和效率提升。
  3   新技术对图书馆核心业务体系的影响
  3.1    5G技术与智慧图书馆
  2019年被视为5G技术元年,一个万物互联的时代即将到来。面对这场深刻影响未来5-10年的技术变革,各行各业早已蓄势待发,而图书馆行业能否抓住这样一个新的机遇,推进智慧图书馆的建设,将成为图书馆(文献情报机构)未来发展成败的分水岭。
  上海图书馆刘炜研究员在此次研讨班上从5G技术和智慧图书馆的概念出发,指出5G技术将成为智慧图书馆建设最重要的基础性技术,将为智慧图书馆提供超高速多媒体应用、智能楼宇空间服务和低延时高可靠应用。结合图书馆业务的未来发展需求,梳理细化出了十个应用场景,包括:无感借阅、导览导航、超清全景互动直播、智慧书房、智慧场馆、云课堂、精准推送、机器人服务、智能安防监控和区域联盟服务协同等。刘炜还介绍了支持5G技术的智慧图书馆服务平台FOLIO,认为5G技术的综合能力将有效地保障该平台具有的开放性和几乎无限的扩展性,也支持了FOLIO的商务模式和创新潜能。认为应该加速中文版FOLIO的研发和应用,充分利用5G技术,尽早实现智慧图书馆的建设,向读者提供全方位的智慧知识服务。
  未来是一个数据与计算的时代,5G技术将给图书馆等各类知识服务机构带来翻天覆地的变化。5G时代,各机构、业务、方法、理念之间的边界将会模糊化,跨界和融合将无处不在,甚至行业、机构间的相互替代也都成为可能。图书馆要想生存和发展,首先要实现自我革命,不受传统“图书馆”理念、物理空间和传统业务体系的束缚,不忘“知识管理”初心,牢记“知识服务”使命,创造新类型的、更加高层次的、知识密集型的新型知识服务。
  3.2    数字人文研究与图书馆数字人文服务
  将数字技术与人文学科研究相结合的“数字人文”研究与服务也是数字图书馆近年来的热点话题。目前,全球很多高校和图书馆都建立了数字人文研究中心,包括我国的上海图书馆、北京大学、武汉大学等。
  上海图书馆夏翠娟研究员在此次研讨班上介绍了数字人文开放数据平台的发展概况,并对上海图书馆家谱数字人文平台进行了深入介绍,从需求分析、本体设计、数据清洗、RDF数据转换一直到数据发布的平台完整构建过程,并审视了平台的技术方法、领域应用以及场景导向。最后以“湖广填四川,麻城占一半”移民记忆的数据化为例,介绍了如何利用家谱平台的数据来实现人文场景到数据可视化的全过程。
  上海图书馆陈涛博士在此次研讨班上介绍了国际图像互操作框架(IIIF),IIIF是一组针对数字图像资源互操作功能而制定的共享API规范。利用IIIF技术,可以突破图书馆自身资源限制,实现和其他馆藏机构之间图像资源的互操作。陈涛还介绍了围绕IIIF建设特藏资源语义化空间的构想,包括对图像资源的数字化重组、数据化识别、语义化标注和智慧化关联,他认为关联数据、IIIF和人工智能技术的结合将开启数字人文研究的新时代。目前,除上海图书馆家谱、古籍和印章知识库使用IIIF以外,华东师范大学书画印本数据库、复旦大学印谱数据库都基于IIIF在开展研究和平台建设。
  美国加州大学伯克利分校东亚图书馆林海青在此次研讨班上以梵高自画像分析为案例,谈到数字化与数字人文的关系。他认为,资源的数字化本身不足以支撑数字人文研究,只有将数字资源对象化成为数字对象,数字资源才能成为数字人文的研究对象。
  数字人文研究与服务是新时期数字图书馆建设发展的重要趋势之一,在开放数据时代,有着规范化、标准化结构和语义的数据将是图书馆为研究人员提供数字人文服务的基础,数字人文研究与服务丰富了图书馆知识服务的内涵,也推动了人文学科的发展和传播。   3.3    关联数据与图书馆数据开放
  关联数据是一种轻量级的用于资源整合的语义网技术,它通过统一的标准将非结构化和半结构化数据转换成结构化数据,并通过RDF实现这些异构分散资源的语义化描述。关联数据可以很好地解决图书馆部分资源数据孤岛的问题,提高资源利用率和服务效果。
  中国农业科学院国家农业图书馆李娇在此次研讨班上认为统一标准的关联数据是语义化和知识发现的重要基础,并分享了国家农业图书馆在关联数据和知识发现服务方面所做的相关工作。为适应大数据环境下个性化知识服务的用户需求,国家农业图书馆通过综合应用元数据、本体和关联数据等技术,对国家农业图书馆各类科技文献、科学数据、规范库、情报资源等多源异构资源开展关联融汇和知识组织。通过建立统一的元数据描述标准规范,并综合应用主题词表和本体模型,对各类数字资源进行规范描述、分类标引,实体抽取、歧义消除和多维度语义关联,最终将各类资源发布为包含语义关联关系的数据和知识网络,实现了农业领域综合数字资源的知识发现和知识服务[12]。
  在数据数量和类型纷繁复杂的大数据环境下,图书馆的信息资源愈发难以被用户发现和使用。关联数据为图书馆打开了一扇数据开放的大门,利用关联数据建立良好的数据共享和保障机制,可以扩大图书馆资源利用范围和使用群体,大大提升图书馆在未来科学数据环境中的作用与地位。
  3.4    人工智能与图书馆知识服务
  大数据、云计算、人工智能等技术的发展给科研工作提供了新的机遇和无限可能,也对图书馆知识服务模式产生了巨大冲击。目前,图书馆在知识组织与管理、智能搜索、智能问答、智能决策方面已开展了大量研究。
  中科院文献情报中心钱力研究员在此次研讨班上认为机器智能正在改变我们理解知识的模式,需要加速智慧情报服务的形成。中科院文献情报中心在图书馆与人工智能结合服务创新方面做了大量尝试和具体应用,包括面向科技论文的科研指纹智能识别、机构与学者名称智能规范、学术论文内容与格式智能核查等。面向科技论文的科研指纹智能识别主要基于“预训练+微调”模式的自然语言处理(NLP)预训练模型对科技论文中的九种指纹特征进行智能识别和提取,包括研究背景、目的、方法、工具、结论等,在海量论文数据中进行知识发现。机构与学者名称智能规范首先基于融合深度学习和字符编辑距离解决机构名称匹配问题,再通过多角度作者实体属性相似度匹配解决学者名称匹配问题,用于解决机构和学者名称消歧问题。
  人工智能带来的不仅仅是技术上的革新,更是思维和服务上的革新。人工智能将推动未来图书馆服务的升级发展,更加趋向于个性化、智能化、高效化。其次,人工智能技术将彻底解放人力,图书馆(文献情报机构)传统业务将由智能机器所代替。未来的所谓图书馆员,将升级成为新型知识管理服务人员,主要包括三个序列:数据管理序列(数据馆员、數据科学家等);技术应用序列(数据管理技术开发与应用专家);数据分析与知识发现序列(数据分析师、知识分析师、战略研究专家等)。
  4   总结与展望
  第16届“数字图书馆前沿问题高级研讨班”主题重大、内涵宏阔,聚焦当今时代的热点问题“数据”。内容涉及开放科学、开放数据、FAIR原则、数据管理与分析、数据关联、知识图谱、5G技术、AI(人工智能)、生物识别、深度学习、智能知识基础设施建设等。从研讨主题可以看出,社会在进行数字化大转型,各行各业都必然受到数字化大转型的冲击,图书馆和文献情报机构也不例外。图书馆、文献情报机构作为专业知识服务机构,要在未来的知识服务中继续发挥主导作用,要以问题和目标导向为原则,在“需求”和“技术”两大动力驱动下,深度转型发展新型核心业务体系,重新定义和重塑自我。
  大数据环境下数据知识管理与服务的新需求和新任务,将推动未来图书馆和文献情报机构突破一系列的传统边界:图书馆物理边界;内容边界(图书、文献、信息、数据、智慧等);理论方法与技术边界(图书馆学、情报学、信息科学、数据科学、统计学等)。未来图书馆将发展成为以智慧知识服务为中心、以先进信息技术为支撑、跨多类型传统机构边界的、完全新类型的“集成化跨界知识管理与服务咨询机构”,是一种从传统的、以文献为中心的管理与服务机构,到全面以数据为中心的新型知识生态系统的知识管理与咨询服务机构。
  这种集成跨界知识管理与服务咨询机构的发展情景将是“N×Commons/Centers”模式,包括Information Commons/Centers(信息中心)、Data Commons/Centers(数据中心)、Learning Commons/Centers(学习中心,阅览室)、Research Commons/Centers(研究中心)、Innovation Commons/Centers(创新中心、创新枢纽)、Incubation Commons/Centers(孵化中心)、Education Commons/Centers(MOOC中心,开放教育中心)、Communication Commons/Centers(科学交流和传播中心)、Knowledge-discovery Commons/Centers(知识发现中心)、Consultative Commons /Centers(Think Tank,专业型智库)、Cinema Commons /Centers(视听娱乐中心)等。N所代表的具体内容,哪个多一些,哪个少一些,完全取决于各类型图书馆(文献情报机构)的个性化、特色化的新角色、新定位、新功能的拓展。
  在“N×Commons/Centers”的跨界知识管理、知识服务、知识咨询机构的可能发展情景下,不要纠结于为什么图书馆(文献情报机构)不再像那个所熟悉的图书馆(文献情报机构)。而要主动考虑、主动设计、主动作为,在“以数字化知识为核心”的知识管理、知识服务、知识咨询中,我们能做什么知识管理与服务工作,就做什么知识管理与服务工作;我们需要跨界什么知识管理与服务领域,就跨界什么知识管理与服务领域;我们需要跨界什么技术和方法,就跨界什么技术和方法。只要能做的工作,就抓住机遇去做。如果目前还不能做的工作,就努力创造条件去做。发展是永恒的,变化是永恒的,图书馆、文献情报机构的知识服务必须不断自我超越。
  致谢:本文中某些论述和观点引自“第十六届数字图书馆前沿问题高级研讨班”各专家报告或发言,由于篇幅有限未能对专家发言内容一一列出并追溯引用,特此致谢并特别说明。报告专家包括(按报告先后顺序):张晓林、张甲、曾蕾、秦健、鲍曙明、朱强、党跃武、刘炜、张计龙、林海青、夏翠娟、陈涛、朱江、邢文明、何佳、余敏、刘敏娟、李娇、胡良霖、钱力、文奕、吴振新、蔡佳展、范炜等。
其他文献
摘 要:“信息社会中的新型贫困问题与管理学的新走向”学术研讨会于2019年11月在兰州召开,会议以“信息致贫的微观机理与信息减贫的宏观制度”为研讨主题,来自国内20余家高校和科研机构的120余位科研人员及师生围绕电信普遍服务、信息贫困问题研究的理论基础、信息贫困者的共性和个性特征、导致信息贫困的主观因素、社会结构因素与信息贫困的关系等议题展开了深入讨论。  关键词:个人信息世界;信息贫困;微观机理
期刊
摘 要:文章阐述了应急响应各阶段情报流的作用,结合新冠肺炎疫情分析了三个应急阶段情报流对疫情防控的精准刻画及疫情全局演变规律的揭示;基于疫情情报流的分析,提出了面向新冠肺炎疫情防控的公共卫生突发事件应急响应情报体系,从疫情防控需求设计了组织架构与功能架构并深度融合了疫情应急响应全程的情报工作。基于文章架构的疫情防控情报体系的理论与方法,结合国家疫情联防联控机制的实践发现情报体系在疫情的应急中发挥了
期刊
摘 要:信息构建(IA)峰会是信息构建领域从业者的全球性聚会,至2018年已连续举办19届。本文通过对IA峰会官网上历年会议资料的文本抽取,采用定性与定量相结合的主题分析方法,对2000年-2018年IA峰会的主要特征及其所体现的信息构建发展过程进行了分析,并结合著名的IA三环结构图,分析了作为信息构建设计模式基础的内容、用户与背景三大领域近年来的研究进展,总结提炼了信息构建的发展趋势。  关键词
期刊
摘 要:文章通过对《欧洲研究型图书馆协会2018-2019年度报告》中有关开放科学的内容进行深入解读,提出我国图书馆界应借鉴国外图书馆界的先进经验,通过协会或联盟的集体力量以及与各利益相关方合作,在关注科研政策和机制、彰显图书馆价值,强化数字技能培训,传播开放科学思想以及重视数据基础设施建设等方面加强指导和实践,使图书馆成为开放科学重要的参与者、推进者甚至领导者。  关键词:开放科学;开放获取;科
期刊
摘 要:文本比较作为人工智能的重要应用,在语言分析、比较研究乃至学术诚信等方面有着广泛应用。文章以中国古代具有重要经济学价值的《管子》和西方古典主义经济学重要著作《国富论》作为比较范本,借助Python语言及相关模块,以较高的效率和精度实现了长文本比较。研究发现,通过人工智能自然语言处理语言及技术,能实现对经济学长文本比较研究,这一方法在未来还可以探索应用到其它社会科学领域。  关键词:人工智能;
期刊
编者按:2017年,酝酿许久的“双一流”建设终于在教育部、财政部、国家发改委的联合发文下正式拉开帷幕,吹响了中国大学迈向世界一流的冲锋号,标志着中国高等教育的又一次重大转型。本次“双一流”建设相较之前的大学建设计划既有继承也有改良,继承的是冲向世界一流的雄心壮志,改良的是认识到了学科建设才是当务之急。于学界而言,站在我国高等教育发展的重大战略决策节点上,开展面向“双一流”建设的发展研究,既是使命与
期刊
摘 要:明代是个崇尚实学的时代,出现了中国传统设计的明式家具这一经典案例。通过对明代文人笔记的研究梳理可以看出,明式家具受到了海上贸易、传统技术、经济、文化等因素的影响,成就非凡。既有历史和技术发展潮流的必然性,又有时代政治、风尚影响的偶然性。在"经世致用"的时代精神影响下,明式家具首先满足了百姓日用的物质基础,进而又满足了文人的精神追求,将理性、秩序、内敛、自省等品格都物化在设计制作之中,成为时
期刊
摘 要:进入21世纪以来,许多国家将开展健康教育、提高公民健康素养、推行和倡导健康生活方式作为国家卫生保健战略的重要内容。为顺应时代发展,包括我国在内的许多国家的公共图书馆通过多种方式参与到健康教育行动中并起到了重要作用,健康服务成为公共图书馆服务创新的重要手段。文章分析和总结了国内外公共图书馆开展健康服务的实践,提出了广泛合作、按需培训、精准服务的公共图书馆健康服务发展框架。  关键词:公共图书
期刊
编者按:“大数据”的诞生,开创了数据价值被重新定义和发掘的新纪元。与全球多数国家尤其是发达国家一样,我国亦已将“大数据”上升到国家战略的高度,其中有关数据产权问题、数据的开放问题、数据的保护问题都将直接影响到国家“大数据”战略的部署和推进。为此,我们组织了这一“大數据时代的数据权利与保护”特别策划,分别从三个角度专门讨论了大数据时代的我国数据开放共享中的权利化、政府数据的制度保障、个人隐私保护等治
期刊
摘 要:木刻版画是我国古代艺术丛林里的一朵奇葩,具有珍贵的历史价值与艺术价值。木刻版画艺术在明代末期达到了发展高峰。胡正言是明代木刻版画艺术的杰出代表,代表性作品有《十竹齋书画谱》和《十竹斋笺谱》,发明了“饾版”和“拱花”印刷技术。世界版画史把胡正言作为彩色套印版画的开端,印刷史也将其作为彩色印刷的开端。  关键词:木刻版画;胡正言;饾版;拱花;彩色套印  中图分类号:J227 文献标识码:A D
期刊