论文部分内容阅读
出版业属内容产业范畴,创新性的内容是出版业的立身之本,内容资源是出版单位做好数字出版的核心保障,内容资源数字化管理受到越来越多的出版单位的重视。而同时,通过计算机技术和信息技术手段,整合、编校和传播中国高质量的哲学社会科学知识资源,让中国的学术研究成果更好地服务中国乃至世界的经济社会发展,不断提高民众的知识文化水平和道德素养,是专业出版社的责任和神圣使命。
不容乐观的内容资源管理现状
1.手段落后、水平低下
不论是出版单位,还是教研机构,目前对自己拥有版权的内容资源都进行了一些数字化处理的尝试,但是绝大部分仅仅局限于文件格式的转化、低水平的知识展现、毫无互动的粗放型的知识产品提供,与国际出版的数字化水平的差距还很大。此外,对已有内容资源进行数字化加工和管理,是因为历史的原因而进行的“二次制作”,期间要耗费大量的人力和物力。
2.大量高质量的哲学社会科学内容资源的价值被埋没
受传统纸质出版和相关科研成果评价指标体系的束缚,通过网络发表的学术成果还没有纳入一定的评价机制里面去,从而影响更多优秀学术成果在网络上的传播,目前哲学社会科学的教研机构只是把少量、符合出版单位选题要求的内容资源出版成为图书、期刊或电子音像出版物等,但是仍然有大量的文字、图片、音视频等内容资源被废弃或无法得到有效利用,其中第一手调查资料、珍贵的照片和音视频、原始的数据等都是不可再生的珍稀知识资源。而同时,据研究显示,世界上95%以上产品技术的情报来源于灰色文献。高校和科研机构具有大量的智力产出,其中就含有数量可观的灰色文献。
3.与国际数字化知识传播渠道难以对接
这种现象阻碍了中国学术的国际话语权和影响力的提高,而导致这种现象的原因是多方面的,包括知识成果存储、编辑和发布的平台建设不规范,不遵守国际技术标准,开放性不高、与其他系统无法实现不同层面的应用整合,平台设计没有适度的前瞻性、没有考虑信息技术的发展等。
内容资源数字化管理方案
1.内容资源梳理和版权商务洽谈
数字出版业务中重要的一项工作就是内容资源的积累与整合,缺乏海量内容资源的支撑,数字技术与网络技术带来的便捷性就无法实现。长期以来,出版单位一直坚持一种想法“我们有内容资源,我们有积累了十几年甚至几十年的海量内容资源”,但是,如果这些内容资源没有保存好,或者保存了但是无法再利用,或者保存好了也能再利用但是版权已经不在出版社手中了,那么内容资源再多也是无价值的。出版社做数字出版,第一项工作就是梳理清楚自己的内容资源的家底,然后对他们进行收集和保存,只有这样,日后才能整合开发利用。
2.数据加工
英国哈珀·柯林斯出版集团从2001年开始对图书进行数字化存档,成为全球第一个自行将已有图书数字化的出版公司。国内大多数出版社自主发展数字出版业务面临的最大困难之一,就是结构化的内容资源有限,无法满足数字出版对海量内容的重组和多方面应用的要求。在数据加工方面,我们需要考虑哪些资源要加工、按什么标准加工、加工成什么格式以及成本控制等问题。
第一,目标:有价值的内容资源拥有数字化文档,并不断结构化和碎片化。
第二,加工程度:依据内容资源学术价值、版权和市场需求等确定程度策略。
第三,加工方式:独立加工,外包服务,两者兼具。
第四,加工原则:模块化、可扩展、统一化、需求化和互操作。
第五,加工之前的准备:正确性和完备性检查。
第六,元数据:数据梳理及其形式限定。
元数据(Metadata)是美国著名的电子文件专家戴维·比尔曼首先引进电子文件研究领域的,最初的定义是“关于数据的数据”。元数据的使用首先要确定描述什么,另外根据使用的用途和应用环境不同,所需要的数字资源的元数据也不尽相同。元数据所指的对象可以分为三层:单体元数据,元数据组和元数据系统。不同的元数据方案之间如果需要进行信息互换,一般需要在不同元数据方案之间建立映射关系来实现互操作,例如:人们在图书馆领域建立了MARC数据与Dc(都柏林核心元数据元素集)的映射关系,从而使利用MARC数据编目的图书馆能够与利用Dc编目的图书馆之间能实现信息的共享和交换。
“内容、受众、运营”是哲学社会科学专业社元数据梳理工作的主要出发点,具体工作计划是:数据梳理方面,要依据内容资源种类,综合考虑内容本身学科知识属性、受众的需求和今后被使用的情况等,在都柏林核心元数据(Dublin Core Metadata)的框架下,参照Docbook等已有的字段和规范,遵从DTD或Schema的元素定义标准规范。同时,考虑到今后内容资源的电子商务交易,也需要参照国际上的在线信息交换标准(Onix),国内与之对应的是“中国出版物在线信息交换(CNONIX)图书产品信息格式”。专业社要充分依靠传统编辑和数字内容编辑,通过至少两个月的集中讨论、分析和汇总,拟定两三套元数据及其结构的规范。可以通过七个方面对元素进行定义:标签、名称、定义、必备性、可重复性、注释和示例。此外,语种引用标准、时间引用标准等可参照ISO的相关标准文件。
3.内容资源数字化管理平台
内容资源数字化管理平台应该是基于XML技术的面向专业学术内容资源的数字化整合、协同编辑、灵活管理和多媒体发布平台,是一整套具有高度扩展性和开放性的业务运营基础支撑平台。该平台实现资源采集加工,资源归类,拆分、存储,文本语义分析与挖掘,基础文件管理,元数据生命周期管理,协同编辑与考核,智能分词与检索,自动化排版和多媒体发布,并与出版社已有的ERP系统、CRM系统和发行专家系统等无缝对接。
第一,内容资源数字化存储平台。该平台主要包括成品资源库、非成品资源库、图片库以及音视频和动画库、合同资源库(管理出版合同、版权授予合同和其他与产品有直接关系的合同)、人物资源库(管理作者以及相关学,科领域知名专家学者的信息)、机构资源库(管理专家学者所在工作单位的信息)等。 第二,内容资源数字化编校平台。该平台主要基于XML技术,通过可视化界面对内容进行编校,承担的功能主要包括对文件解析和展现,内容本身的二次编校、标引,对词典资源库的管理,语义分析与文本发掘,知识关联等。
第三,内容资源数字化发布平台。“多元化发布”是前期的数据加工和内容资源的数字化编校的延伸,这样内容资源就可以实现多媒体形式的复合出版,为产品选择其适合的出版形式。多元化发布也是基于对市场和用户需求的细分,遵循“专精特”的道路,为有不同需求的受众提供差异化个性化的产品或服务。平台主要包括两部分,一是样式管理,实现样式和内容独立,单个样式表中支持Web、打印、PDF和HTML等多种输出类型,样式可重用,能够完美地协同传统纸质出版等;二是发布管理,可配置发布规则,支持多渠道、多格式、跨媒体的信息发布,自动从XML来源中将内容发布到Web和无线设备等,支持信息推送、变更推送,自动从CRM等业务系统中提取和嵌入数据(例如用户数据、销售数据、学科发展情况的分析数据等)。内容资源数字化发布平台是出版社由内容资源提供商向内容资源集成运营商转变的重要路径,可以有效地减少对他方运营平台的依赖、受各种运营商挟持的可能。基于明确的目标人群、特色的内容资源,哲学社会科学专业出版社可以更好地发展成为自营式专业内容资源集成运营商。
第四,其他。内容资源数字化管理平台应该包括自身运营管理的模块(日程安排、任务管理、工作统计、进度管理、日志管理、用户管理等),还应该包括系统管理模块(业务流程定制、数据安全和备份等)。
内容资源数字化管理的意义
第一,通过计算机技术和信息技术,充分发挥当下专业出版单位传播人类优秀文化的作用,全面整合中国哲学社会科学领域顶级教研机构历史和当前的知识内容资源,将国内知名专家学者的智力成果全面数字化并全方位多渠道传播。实现学术研究成果价值的最大化,助力学术研究成果更好地为中国经济社会发展服务,促进国民知识文化水平和道德素养的提高。与国际知识内容资源传播渠道良好对接,极大地促进中国学术研究成果“走出去”,提高中国哲学社会科学研究成果的国际影响力和学术话浯权!
第二,增强出版单位在数字出版产业链上的地位和作用,协助重塑新型出版产业链。当前我国的数字出版主要推动力量是技术提供商和平台运营商,而不是内容提供商(即传统的出版单位机构)。专业出版社内容资源数字化管理的实施,以内容资源为核心竞争力,就有利于将出版单位从传统的内容提供商转变为内容资源集约运营商和服务提供商,从传统的物流转变为信息流,从单向传递转变为双向互动,使传统出版单位变为知识信息服务中的重要部分。同时,这也有利于传统出版单位更多地参与数字出版标准、数字出版产业政策的制定中来。谁在标准和政策中占据主动,谁就将在产业发展占据得利优势。
(作者系社会科学文献出版社数字资源运营中心副主任)
不容乐观的内容资源管理现状
1.手段落后、水平低下
不论是出版单位,还是教研机构,目前对自己拥有版权的内容资源都进行了一些数字化处理的尝试,但是绝大部分仅仅局限于文件格式的转化、低水平的知识展现、毫无互动的粗放型的知识产品提供,与国际出版的数字化水平的差距还很大。此外,对已有内容资源进行数字化加工和管理,是因为历史的原因而进行的“二次制作”,期间要耗费大量的人力和物力。
2.大量高质量的哲学社会科学内容资源的价值被埋没
受传统纸质出版和相关科研成果评价指标体系的束缚,通过网络发表的学术成果还没有纳入一定的评价机制里面去,从而影响更多优秀学术成果在网络上的传播,目前哲学社会科学的教研机构只是把少量、符合出版单位选题要求的内容资源出版成为图书、期刊或电子音像出版物等,但是仍然有大量的文字、图片、音视频等内容资源被废弃或无法得到有效利用,其中第一手调查资料、珍贵的照片和音视频、原始的数据等都是不可再生的珍稀知识资源。而同时,据研究显示,世界上95%以上产品技术的情报来源于灰色文献。高校和科研机构具有大量的智力产出,其中就含有数量可观的灰色文献。
3.与国际数字化知识传播渠道难以对接
这种现象阻碍了中国学术的国际话语权和影响力的提高,而导致这种现象的原因是多方面的,包括知识成果存储、编辑和发布的平台建设不规范,不遵守国际技术标准,开放性不高、与其他系统无法实现不同层面的应用整合,平台设计没有适度的前瞻性、没有考虑信息技术的发展等。
内容资源数字化管理方案
1.内容资源梳理和版权商务洽谈
数字出版业务中重要的一项工作就是内容资源的积累与整合,缺乏海量内容资源的支撑,数字技术与网络技术带来的便捷性就无法实现。长期以来,出版单位一直坚持一种想法“我们有内容资源,我们有积累了十几年甚至几十年的海量内容资源”,但是,如果这些内容资源没有保存好,或者保存了但是无法再利用,或者保存好了也能再利用但是版权已经不在出版社手中了,那么内容资源再多也是无价值的。出版社做数字出版,第一项工作就是梳理清楚自己的内容资源的家底,然后对他们进行收集和保存,只有这样,日后才能整合开发利用。
2.数据加工
英国哈珀·柯林斯出版集团从2001年开始对图书进行数字化存档,成为全球第一个自行将已有图书数字化的出版公司。国内大多数出版社自主发展数字出版业务面临的最大困难之一,就是结构化的内容资源有限,无法满足数字出版对海量内容的重组和多方面应用的要求。在数据加工方面,我们需要考虑哪些资源要加工、按什么标准加工、加工成什么格式以及成本控制等问题。
第一,目标:有价值的内容资源拥有数字化文档,并不断结构化和碎片化。
第二,加工程度:依据内容资源学术价值、版权和市场需求等确定程度策略。
第三,加工方式:独立加工,外包服务,两者兼具。
第四,加工原则:模块化、可扩展、统一化、需求化和互操作。
第五,加工之前的准备:正确性和完备性检查。
第六,元数据:数据梳理及其形式限定。
元数据(Metadata)是美国著名的电子文件专家戴维·比尔曼首先引进电子文件研究领域的,最初的定义是“关于数据的数据”。元数据的使用首先要确定描述什么,另外根据使用的用途和应用环境不同,所需要的数字资源的元数据也不尽相同。元数据所指的对象可以分为三层:单体元数据,元数据组和元数据系统。不同的元数据方案之间如果需要进行信息互换,一般需要在不同元数据方案之间建立映射关系来实现互操作,例如:人们在图书馆领域建立了MARC数据与Dc(都柏林核心元数据元素集)的映射关系,从而使利用MARC数据编目的图书馆能够与利用Dc编目的图书馆之间能实现信息的共享和交换。
“内容、受众、运营”是哲学社会科学专业社元数据梳理工作的主要出发点,具体工作计划是:数据梳理方面,要依据内容资源种类,综合考虑内容本身学科知识属性、受众的需求和今后被使用的情况等,在都柏林核心元数据(Dublin Core Metadata)的框架下,参照Docbook等已有的字段和规范,遵从DTD或Schema的元素定义标准规范。同时,考虑到今后内容资源的电子商务交易,也需要参照国际上的在线信息交换标准(Onix),国内与之对应的是“中国出版物在线信息交换(CNONIX)图书产品信息格式”。专业社要充分依靠传统编辑和数字内容编辑,通过至少两个月的集中讨论、分析和汇总,拟定两三套元数据及其结构的规范。可以通过七个方面对元素进行定义:标签、名称、定义、必备性、可重复性、注释和示例。此外,语种引用标准、时间引用标准等可参照ISO的相关标准文件。
3.内容资源数字化管理平台
内容资源数字化管理平台应该是基于XML技术的面向专业学术内容资源的数字化整合、协同编辑、灵活管理和多媒体发布平台,是一整套具有高度扩展性和开放性的业务运营基础支撑平台。该平台实现资源采集加工,资源归类,拆分、存储,文本语义分析与挖掘,基础文件管理,元数据生命周期管理,协同编辑与考核,智能分词与检索,自动化排版和多媒体发布,并与出版社已有的ERP系统、CRM系统和发行专家系统等无缝对接。
第一,内容资源数字化存储平台。该平台主要包括成品资源库、非成品资源库、图片库以及音视频和动画库、合同资源库(管理出版合同、版权授予合同和其他与产品有直接关系的合同)、人物资源库(管理作者以及相关学,科领域知名专家学者的信息)、机构资源库(管理专家学者所在工作单位的信息)等。 第二,内容资源数字化编校平台。该平台主要基于XML技术,通过可视化界面对内容进行编校,承担的功能主要包括对文件解析和展现,内容本身的二次编校、标引,对词典资源库的管理,语义分析与文本发掘,知识关联等。
第三,内容资源数字化发布平台。“多元化发布”是前期的数据加工和内容资源的数字化编校的延伸,这样内容资源就可以实现多媒体形式的复合出版,为产品选择其适合的出版形式。多元化发布也是基于对市场和用户需求的细分,遵循“专精特”的道路,为有不同需求的受众提供差异化个性化的产品或服务。平台主要包括两部分,一是样式管理,实现样式和内容独立,单个样式表中支持Web、打印、PDF和HTML等多种输出类型,样式可重用,能够完美地协同传统纸质出版等;二是发布管理,可配置发布规则,支持多渠道、多格式、跨媒体的信息发布,自动从XML来源中将内容发布到Web和无线设备等,支持信息推送、变更推送,自动从CRM等业务系统中提取和嵌入数据(例如用户数据、销售数据、学科发展情况的分析数据等)。内容资源数字化发布平台是出版社由内容资源提供商向内容资源集成运营商转变的重要路径,可以有效地减少对他方运营平台的依赖、受各种运营商挟持的可能。基于明确的目标人群、特色的内容资源,哲学社会科学专业出版社可以更好地发展成为自营式专业内容资源集成运营商。
第四,其他。内容资源数字化管理平台应该包括自身运营管理的模块(日程安排、任务管理、工作统计、进度管理、日志管理、用户管理等),还应该包括系统管理模块(业务流程定制、数据安全和备份等)。
内容资源数字化管理的意义
第一,通过计算机技术和信息技术,充分发挥当下专业出版单位传播人类优秀文化的作用,全面整合中国哲学社会科学领域顶级教研机构历史和当前的知识内容资源,将国内知名专家学者的智力成果全面数字化并全方位多渠道传播。实现学术研究成果价值的最大化,助力学术研究成果更好地为中国经济社会发展服务,促进国民知识文化水平和道德素养的提高。与国际知识内容资源传播渠道良好对接,极大地促进中国学术研究成果“走出去”,提高中国哲学社会科学研究成果的国际影响力和学术话浯权!
第二,增强出版单位在数字出版产业链上的地位和作用,协助重塑新型出版产业链。当前我国的数字出版主要推动力量是技术提供商和平台运营商,而不是内容提供商(即传统的出版单位机构)。专业出版社内容资源数字化管理的实施,以内容资源为核心竞争力,就有利于将出版单位从传统的内容提供商转变为内容资源集约运营商和服务提供商,从传统的物流转变为信息流,从单向传递转变为双向互动,使传统出版单位变为知识信息服务中的重要部分。同时,这也有利于传统出版单位更多地参与数字出版标准、数字出版产业政策的制定中来。谁在标准和政策中占据主动,谁就将在产业发展占据得利优势。
(作者系社会科学文献出版社数字资源运营中心副主任)