论文部分内容阅读
【摘要】随着移动互联网、物联网和云计算的技术发展催生了大数据的产生。出版行业的大数据也随着与电商的合作、互联网的销售推广以及出版数据分析而逐步深入。本文通过对书号、条码、在版编目(CIP)系统的研究,提出大数据时代构建出版信息服务平台的几点设想。
【关键词】大数据时代;构建;信息平台
随着大数据引领的智慧科技时代的来临,数据资源整合、全媒体融合以及通过对数据的挖掘实现个性化信息定制服务等,已经成为出版业数字化转型和产业重构的重要因素。如何为出版业在大数据时代的数字化转型提供有效的出版信息资源服务,中国版本图书馆(新闻出版总署条码中心)书号、条码、在版编目数据信息服务系统的构建对于出版行业的发展起着重要作用。本文就大数据时代如何构建好出版信息服务平台提出如下几点思考。
一、目前我国出版信息服务系统现状
2010年4月,新闻出版总署党组将中国条码中心和新闻出版总署信息中心(中国版本图书馆)进行全面整合,成立了新的“中国版本图书馆(新闻出版总署条码中心)”。赋予了中国版本图书馆(新闻出版总署条码中心)对出版物的书号、条码和在版编目(CIP)信息数据技术编制和管理等新的职能。新组建了出版物标识部,意在将出版物印前信息到样本信息组合成为一条完整的数据链。通过整合,理顺了出版业务管理流程,减少了部分数据技术编制的交叉和重复,但仍未彻底解决书号实名申领、条码和在版编目(CIP)信息数据共享问题。[1]
1.书号实名申领信息系统
书号实名申领信息系统采用SOA架构,多层C/S结构。系统的展现层、应用层和数据层分开部署:展现层部署在用户本地的客户端,应用层部署在后台的应用服务器上,数据层部署数据库服务器上;展现层的版本升级通过版本服务器实现自动升级操作。客户端的运行环境为Windows操作系统,在.net平台上开发,服务器端采用Linux操作系统,在J2EE环境下开发和运行。具体业务工作流程详见下图:
书号实名申领业务流程:
2.在版编目(CIP)系统
在版编目(CIP)系统采用SOA架构体系设计;采用JAVA语言,基于J2EE的分布式计算技术,支持跨平台部署;采用C/S和B/S混合模式,满足不同用户的工作需求。利用XML作为系统接口的数据交换标准,进行信息资源整合;出版社端可以进行在版编目(CIP)数据上报、接收、修订、撤销、加急、标准数据打印、数据导入导出、数据查询统计、数据状态显示、本地数据字典维护等操作。我馆对出版社上报的在版编目(CIP)数据进行编制、审核、修订、撤销、退回、标准数据发布和打印及其他系统设置和维护等工作。在版编目(CIP)系统使用的操作系统是CentOS,数据库采用Oracle,使用Rose HA软件双机热备。应用服务器采用DMZ区Dell 2950和Dell R710服务器提供在版编目(CIP)数据的申报,内网两台DELL 2950服务器用于数据制作双机,IBM 3650 M4服务器提供全文检索,操作系统采用Windows Server 2003企业版。应用服务器中间件软件采用JBoss和Tomcat,HA软件采用DataWare。具体业务工作流程详见下图:
在版编目(CIP)业务流程:
3.样本库管理系统
样本管理系统采用以色列Aleph 500?图书馆系统。以Oracle数据库为后台,支持Unicode字符集、XML以及其它顶层应用系统的API。Aleph 500基于微软的window之上的馆员客户机;公众Web浏览器;供远程检索的Z39.50客户机。采用多层客户机/服务器结构,可以提供20余种的用户接口。Web OPAC基于HTML页面可以完全定制满足图书馆的特殊需求。编目模块将编目功能和系统其它各个方面相集成,提供各种书目实用程序接口,数据以Unicode编码存储。同时支持MARC和非MARC格式数据,可提供单个数据库访问以及相应的数据核查和索引定义。具体业务工作流程详见下图:
样本库管理业务流程:
二、对大数据时代构建出版信息服务平台的设想
1.构建出版信息服务平台的目标
为适应大数据时代出版单位转型的需要,笔者试从加大对出版信息化建设的投入,利用高科技技术手段,通过云计算等先进技术建立并集成各类资源一站式出版信息服务[2],构建大数据时代出版信息服务平台。既:对现有书号实名申领信息系统、在版编目(CIP)系统和样书信息管理系统进行深度融合,实现内部书目信息、数据资源信息的汇集与关联。实现出版单位信息采集、数据制作和信息共享等覆盖全国图书、音像电子等出版物一体化融合目标。为政府管理部门和出版行业提供全方位的出版信息数据支持,为出版行业发展研究提供有效的数据挖掘分析和研究报告。
2.建设出版信息服务平台的原则
①标准化和规范化原则;②实用性和可扩展性原则;③灵活性和易操作性原则;④安全性原则。
3.总体技术架构
①用开放的、面向WEB以服务为中心的企业级应用J2EE标准平台架构。②采用开放、独立的具有一定灵活性的数据交换机制。数据交换中心采用SOA架构,利用基于统一标准、支持异构的技术实现系统的数据传输服务。数据交换模块通过Web services与数据交换中心交换传输数据。
4.遵循行业标准构建数据共享体系
现有的三个系统原本是相互独立,且信息标准不一致,因此,有必要制定统一规范的系统标准和行业数据标准,构建数据共享体系。拟采用已经颁布的中国出版物在线信息交换(CNONIX)标准,来规范图书元数据描述、图书元数据采集以及图书产品信息交换,统一规范数据格式,实现出版信息资源共享,使“出版大数据”时代早日到来,发挥其真正力量。[3]
5.开发出版标准数据采集客户端
现有的书号实名申领系统、CIP系统分别有各自的客户端软件。目前用户需要分别在各自得客户端进行数据操作,并且操作的内容具有很大的相关性。因此需开发统一的数据采集端来保障数据的一致性。客户端支持C/S和B/S结构,符合图书元数据描述规范和采集规范,支持出版社ERP系统、发行系统和自有工具软件,使各出版社的业务系统和出版信息数据充分共享。
6.实现业务流程再造
①用云计算技术优化书号实名申领系统、在版编目(CIP)系统结构,解决系统之间的数据匹配问题,减少数据冗余,达到系统数据标准、数据格式一致。②实现样本依图编目:对样书前10页(除图片)信息进行OCR扫描识别,建立依图编目数据采集、加工系统,将扫描图像按一定规则分配给编目员,依图进行编目、审核等。③整合规范后台数据服务平台:整合后将实现对各类图书信息的查询、统计、分类、数据分析及数据深度挖掘等功能。实现为政府部门和行业提供数据服务的能力。
整合后的业务流程图如下:
三、结语
大数据的应用对于出版业仍在探索之中,笔者意在就出版信息资源共享而优化现有出版流程,将现有出版流程整合成一个功能强大的为政府提供出版信息服务支撑的出版信息服务平台,通过新一代网络技术实现技术更新。通过对海量出版数据的挖掘技术、大数据分析技术,快速完成资源的优化和共享,实现知识的提纯,内容的关联。
参考文献
[1]左晓光.在2011年度全国书号、条码、图书在版编目(CIP)管理工作会议上的讲话.
[2]郝振省.数字出版产业存在的问题与趋势[N].中华读书报,2013(7).
[3]肖东发,卞卓舟.在融合中延伸与拓展[N].中国新闻出版报,2013-12-18.
作者简介:蔡凤娟,女,中国版本图书馆副馆长,研究方向:出版信息技术。
【关键词】大数据时代;构建;信息平台
随着大数据引领的智慧科技时代的来临,数据资源整合、全媒体融合以及通过对数据的挖掘实现个性化信息定制服务等,已经成为出版业数字化转型和产业重构的重要因素。如何为出版业在大数据时代的数字化转型提供有效的出版信息资源服务,中国版本图书馆(新闻出版总署条码中心)书号、条码、在版编目数据信息服务系统的构建对于出版行业的发展起着重要作用。本文就大数据时代如何构建好出版信息服务平台提出如下几点思考。
一、目前我国出版信息服务系统现状
2010年4月,新闻出版总署党组将中国条码中心和新闻出版总署信息中心(中国版本图书馆)进行全面整合,成立了新的“中国版本图书馆(新闻出版总署条码中心)”。赋予了中国版本图书馆(新闻出版总署条码中心)对出版物的书号、条码和在版编目(CIP)信息数据技术编制和管理等新的职能。新组建了出版物标识部,意在将出版物印前信息到样本信息组合成为一条完整的数据链。通过整合,理顺了出版业务管理流程,减少了部分数据技术编制的交叉和重复,但仍未彻底解决书号实名申领、条码和在版编目(CIP)信息数据共享问题。[1]
1.书号实名申领信息系统
书号实名申领信息系统采用SOA架构,多层C/S结构。系统的展现层、应用层和数据层分开部署:展现层部署在用户本地的客户端,应用层部署在后台的应用服务器上,数据层部署数据库服务器上;展现层的版本升级通过版本服务器实现自动升级操作。客户端的运行环境为Windows操作系统,在.net平台上开发,服务器端采用Linux操作系统,在J2EE环境下开发和运行。具体业务工作流程详见下图:
书号实名申领业务流程:
2.在版编目(CIP)系统
在版编目(CIP)系统采用SOA架构体系设计;采用JAVA语言,基于J2EE的分布式计算技术,支持跨平台部署;采用C/S和B/S混合模式,满足不同用户的工作需求。利用XML作为系统接口的数据交换标准,进行信息资源整合;出版社端可以进行在版编目(CIP)数据上报、接收、修订、撤销、加急、标准数据打印、数据导入导出、数据查询统计、数据状态显示、本地数据字典维护等操作。我馆对出版社上报的在版编目(CIP)数据进行编制、审核、修订、撤销、退回、标准数据发布和打印及其他系统设置和维护等工作。在版编目(CIP)系统使用的操作系统是CentOS,数据库采用Oracle,使用Rose HA软件双机热备。应用服务器采用DMZ区Dell 2950和Dell R710服务器提供在版编目(CIP)数据的申报,内网两台DELL 2950服务器用于数据制作双机,IBM 3650 M4服务器提供全文检索,操作系统采用Windows Server 2003企业版。应用服务器中间件软件采用JBoss和Tomcat,HA软件采用DataWare。具体业务工作流程详见下图:
在版编目(CIP)业务流程:
3.样本库管理系统
样本管理系统采用以色列Aleph 500?图书馆系统。以Oracle数据库为后台,支持Unicode字符集、XML以及其它顶层应用系统的API。Aleph 500基于微软的window之上的馆员客户机;公众Web浏览器;供远程检索的Z39.50客户机。采用多层客户机/服务器结构,可以提供20余种的用户接口。Web OPAC基于HTML页面可以完全定制满足图书馆的特殊需求。编目模块将编目功能和系统其它各个方面相集成,提供各种书目实用程序接口,数据以Unicode编码存储。同时支持MARC和非MARC格式数据,可提供单个数据库访问以及相应的数据核查和索引定义。具体业务工作流程详见下图:
样本库管理业务流程:
二、对大数据时代构建出版信息服务平台的设想
1.构建出版信息服务平台的目标
为适应大数据时代出版单位转型的需要,笔者试从加大对出版信息化建设的投入,利用高科技技术手段,通过云计算等先进技术建立并集成各类资源一站式出版信息服务[2],构建大数据时代出版信息服务平台。既:对现有书号实名申领信息系统、在版编目(CIP)系统和样书信息管理系统进行深度融合,实现内部书目信息、数据资源信息的汇集与关联。实现出版单位信息采集、数据制作和信息共享等覆盖全国图书、音像电子等出版物一体化融合目标。为政府管理部门和出版行业提供全方位的出版信息数据支持,为出版行业发展研究提供有效的数据挖掘分析和研究报告。
2.建设出版信息服务平台的原则
①标准化和规范化原则;②实用性和可扩展性原则;③灵活性和易操作性原则;④安全性原则。
3.总体技术架构
①用开放的、面向WEB以服务为中心的企业级应用J2EE标准平台架构。②采用开放、独立的具有一定灵活性的数据交换机制。数据交换中心采用SOA架构,利用基于统一标准、支持异构的技术实现系统的数据传输服务。数据交换模块通过Web services与数据交换中心交换传输数据。
4.遵循行业标准构建数据共享体系
现有的三个系统原本是相互独立,且信息标准不一致,因此,有必要制定统一规范的系统标准和行业数据标准,构建数据共享体系。拟采用已经颁布的中国出版物在线信息交换(CNONIX)标准,来规范图书元数据描述、图书元数据采集以及图书产品信息交换,统一规范数据格式,实现出版信息资源共享,使“出版大数据”时代早日到来,发挥其真正力量。[3]
5.开发出版标准数据采集客户端
现有的书号实名申领系统、CIP系统分别有各自的客户端软件。目前用户需要分别在各自得客户端进行数据操作,并且操作的内容具有很大的相关性。因此需开发统一的数据采集端来保障数据的一致性。客户端支持C/S和B/S结构,符合图书元数据描述规范和采集规范,支持出版社ERP系统、发行系统和自有工具软件,使各出版社的业务系统和出版信息数据充分共享。
6.实现业务流程再造
①用云计算技术优化书号实名申领系统、在版编目(CIP)系统结构,解决系统之间的数据匹配问题,减少数据冗余,达到系统数据标准、数据格式一致。②实现样本依图编目:对样书前10页(除图片)信息进行OCR扫描识别,建立依图编目数据采集、加工系统,将扫描图像按一定规则分配给编目员,依图进行编目、审核等。③整合规范后台数据服务平台:整合后将实现对各类图书信息的查询、统计、分类、数据分析及数据深度挖掘等功能。实现为政府部门和行业提供数据服务的能力。
整合后的业务流程图如下:
三、结语
大数据的应用对于出版业仍在探索之中,笔者意在就出版信息资源共享而优化现有出版流程,将现有出版流程整合成一个功能强大的为政府提供出版信息服务支撑的出版信息服务平台,通过新一代网络技术实现技术更新。通过对海量出版数据的挖掘技术、大数据分析技术,快速完成资源的优化和共享,实现知识的提纯,内容的关联。
参考文献
[1]左晓光.在2011年度全国书号、条码、图书在版编目(CIP)管理工作会议上的讲话.
[2]郝振省.数字出版产业存在的问题与趋势[N].中华读书报,2013(7).
[3]肖东发,卞卓舟.在融合中延伸与拓展[N].中国新闻出版报,2013-12-18.
作者简介:蔡凤娟,女,中国版本图书馆副馆长,研究方向:出版信息技术。