大数据时代构建出版信息服务平台的几点思考

来源 :电子世界 | 被引量 : 0次 | 上传用户:wongbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】随着移动互联网、物联网和云计算的技术发展催生了大数据的产生。出版行业的大数据也随着与电商的合作、互联网的销售推广以及出版数据分析而逐步深入。本文通过对书号、条码、在版编目(CIP)系统的研究,提出大数据时代构建出版信息服务平台的几点设想。
  【关键词】大数据时代;构建;信息平台
  随着大数据引领的智慧科技时代的来临,数据资源整合、全媒体融合以及通过对数据的挖掘实现个性化信息定制服务等,已经成为出版业数字化转型和产业重构的重要因素。如何为出版业在大数据时代的数字化转型提供有效的出版信息资源服务,中国版本图书馆(新闻出版总署条码中心)书号、条码、在版编目数据信息服务系统的构建对于出版行业的发展起着重要作用。本文就大数据时代如何构建好出版信息服务平台提出如下几点思考。
  一、目前我国出版信息服务系统现状
  2010年4月,新闻出版总署党组将中国条码中心和新闻出版总署信息中心(中国版本图书馆)进行全面整合,成立了新的“中国版本图书馆(新闻出版总署条码中心)”。赋予了中国版本图书馆(新闻出版总署条码中心)对出版物的书号、条码和在版编目(CIP)信息数据技术编制和管理等新的职能。新组建了出版物标识部,意在将出版物印前信息到样本信息组合成为一条完整的数据链。通过整合,理顺了出版业务管理流程,减少了部分数据技术编制的交叉和重复,但仍未彻底解决书号实名申领、条码和在版编目(CIP)信息数据共享问题。[1]
  1.书号实名申领信息系统
  书号实名申领信息系统采用SOA架构,多层C/S结构。系统的展现层、应用层和数据层分开部署:展现层部署在用户本地的客户端,应用层部署在后台的应用服务器上,数据层部署数据库服务器上;展现层的版本升级通过版本服务器实现自动升级操作。客户端的运行环境为Windows操作系统,在.net平台上开发,服务器端采用Linux操作系统,在J2EE环境下开发和运行。具体业务工作流程详见下图:
  书号实名申领业务流程:
  2.在版编目(CIP)系统
  在版编目(CIP)系统采用SOA架构体系设计;采用JAVA语言,基于J2EE的分布式计算技术,支持跨平台部署;采用C/S和B/S混合模式,满足不同用户的工作需求。利用XML作为系统接口的数据交换标准,进行信息资源整合;出版社端可以进行在版编目(CIP)数据上报、接收、修订、撤销、加急、标准数据打印、数据导入导出、数据查询统计、数据状态显示、本地数据字典维护等操作。我馆对出版社上报的在版编目(CIP)数据进行编制、审核、修订、撤销、退回、标准数据发布和打印及其他系统设置和维护等工作。在版编目(CIP)系统使用的操作系统是CentOS,数据库采用Oracle,使用Rose HA软件双机热备。应用服务器采用DMZ区Dell 2950和Dell R710服务器提供在版编目(CIP)数据的申报,内网两台DELL 2950服务器用于数据制作双机,IBM 3650 M4服务器提供全文检索,操作系统采用Windows Server 2003企业版。应用服务器中间件软件采用JBoss和Tomcat,HA软件采用DataWare。具体业务工作流程详见下图:
  在版编目(CIP)业务流程:
  3.样本库管理系统
  样本管理系统采用以色列Aleph 500?图书馆系统。以Oracle数据库为后台,支持Unicode字符集、XML以及其它顶层应用系统的API。Aleph 500基于微软的window之上的馆员客户机;公众Web浏览器;供远程检索的Z39.50客户机。采用多层客户机/服务器结构,可以提供20余种的用户接口。Web OPAC基于HTML页面可以完全定制满足图书馆的特殊需求。编目模块将编目功能和系统其它各个方面相集成,提供各种书目实用程序接口,数据以Unicode编码存储。同时支持MARC和非MARC格式数据,可提供单个数据库访问以及相应的数据核查和索引定义。具体业务工作流程详见下图:
  样本库管理业务流程:
  二、对大数据时代构建出版信息服务平台的设想
  1.构建出版信息服务平台的目标
  为适应大数据时代出版单位转型的需要,笔者试从加大对出版信息化建设的投入,利用高科技技术手段,通过云计算等先进技术建立并集成各类资源一站式出版信息服务[2],构建大数据时代出版信息服务平台。既:对现有书号实名申领信息系统、在版编目(CIP)系统和样书信息管理系统进行深度融合,实现内部书目信息、数据资源信息的汇集与关联。实现出版单位信息采集、数据制作和信息共享等覆盖全国图书、音像电子等出版物一体化融合目标。为政府管理部门和出版行业提供全方位的出版信息数据支持,为出版行业发展研究提供有效的数据挖掘分析和研究报告。
  2.建设出版信息服务平台的原则
  ①标准化和规范化原则;②实用性和可扩展性原则;③灵活性和易操作性原则;④安全性原则。
  3.总体技术架构
  ①用开放的、面向WEB以服务为中心的企业级应用J2EE标准平台架构。②采用开放、独立的具有一定灵活性的数据交换机制。数据交换中心采用SOA架构,利用基于统一标准、支持异构的技术实现系统的数据传输服务。数据交换模块通过Web services与数据交换中心交换传输数据。
  4.遵循行业标准构建数据共享体系
  现有的三个系统原本是相互独立,且信息标准不一致,因此,有必要制定统一规范的系统标准和行业数据标准,构建数据共享体系。拟采用已经颁布的中国出版物在线信息交换(CNONIX)标准,来规范图书元数据描述、图书元数据采集以及图书产品信息交换,统一规范数据格式,实现出版信息资源共享,使“出版大数据”时代早日到来,发挥其真正力量。[3]
  5.开发出版标准数据采集客户端
  现有的书号实名申领系统、CIP系统分别有各自的客户端软件。目前用户需要分别在各自得客户端进行数据操作,并且操作的内容具有很大的相关性。因此需开发统一的数据采集端来保障数据的一致性。客户端支持C/S和B/S结构,符合图书元数据描述规范和采集规范,支持出版社ERP系统、发行系统和自有工具软件,使各出版社的业务系统和出版信息数据充分共享。
  6.实现业务流程再造
  ①用云计算技术优化书号实名申领系统、在版编目(CIP)系统结构,解决系统之间的数据匹配问题,减少数据冗余,达到系统数据标准、数据格式一致。②实现样本依图编目:对样书前10页(除图片)信息进行OCR扫描识别,建立依图编目数据采集、加工系统,将扫描图像按一定规则分配给编目员,依图进行编目、审核等。③整合规范后台数据服务平台:整合后将实现对各类图书信息的查询、统计、分类、数据分析及数据深度挖掘等功能。实现为政府部门和行业提供数据服务的能力。
  整合后的业务流程图如下:
  三、结语
  大数据的应用对于出版业仍在探索之中,笔者意在就出版信息资源共享而优化现有出版流程,将现有出版流程整合成一个功能强大的为政府提供出版信息服务支撑的出版信息服务平台,通过新一代网络技术实现技术更新。通过对海量出版数据的挖掘技术、大数据分析技术,快速完成资源的优化和共享,实现知识的提纯,内容的关联。
  参考文献
  [1]左晓光.在2011年度全国书号、条码、图书在版编目(CIP)管理工作会议上的讲话.
  [2]郝振省.数字出版产业存在的问题与趋势[N].中华读书报,2013(7).
  [3]肖东发,卞卓舟.在融合中延伸与拓展[N].中国新闻出版报,2013-12-18.
  作者简介:蔡凤娟,女,中国版本图书馆副馆长,研究方向:出版信息技术。
其他文献
近日消息,美国专利商标局本周四公布了一项苹果提交的专利申请,这项专利涉及到的是一种全新的太阳能电池技术。根据专利文件的描述,未来的 iPhone、iPad、iWatch、Mac,又或者是电视机甚至是交通工具都可以整合苹果新发明的太阳能电池环境光传感器,并且能够从中获得一天的工作电源动力。  苹果最早在2012年第四季度提交这项技术专利,其发明人为 Anna-Katrina Shedletsky、E
期刊
【摘要】微电子专业实践教学和学科竞赛相互融合、互动发展,是新世纪微电子专业教育理念和人才培养模式新的探索,对于学生实际动手能力的培养和实践教学内容、方式的改进具有重要的理论和现实意义。  【关键词】微电子;实践教学;学科竞赛  随着社会的进步,科学技术的发展,企业对新入职员工的专业能力要求也随行业竞争激烈而大幅提高。企业招聘新入职员工最重要的一项工作是考核新员工的实际动手能力能否胜任企业的职位要求
期刊
【摘要】数据挖掘技术应用于医学领域,有助于从海量信息中提取有价值信息,为疾病的诊治及临床研究提供科学依据。医学数据挖掘是一门涉及面广、技术难度大的新兴交叉学科。本文主要介绍数据挖掘概念,数据挖掘主要方法,数据挖掘过程及前景展望,为进一步深入研究打下理论基础。  【关键词】数据挖掘;挖掘特点;挖掘方法;挖掘过程  引言  随着电子科技的飞速发展,在医疗机构中有大量的医疗数据被记录下来。此外,有关病人
期刊
在韩国举行的世界氢能大会上(WHEC),专家们对氢能技术的未来感到乐观。但是燃料电池专家博恩豪夫(Klaus Bonhoff)在接受德国之声采访时表示,该项技术还需不断改进。  德国之声:博恩豪夫先生,将水电解可以产生氢,燃料电池可以传输电和热。为什么这个技术具有重要意义?  克劳斯·博恩豪夫:氢是一种综合性的能源载体,可以对能源转型发挥重要作用。它可以进行存贮并用可再生能源进行生产。燃料电池可以
期刊
【摘要】以工作过程为导向的教学模式是目前高职教育教学中广泛推广的人才培养模式,本文就我院电子信息专业的实际情况,介绍了电子信息专业基于工作过程的新型一体化教学模式的课程定位、设计理念、教学内容、教学设计等内容。  【关键词】基于工作过程;电子信息  1.引言  今年召开的党十八大会议中明确提出了“加快发展现代职业教育”的指示,为我国职业教育的发展提供了强有力的政策支持和国内环境。作为职业教育一线工
期刊
【摘要】通过对此次的雷灾调查处理,分析雷灾事故原因,提出事故处理报告和整改措施,杜绝更多类似的事故发生,提高生产人员的意识,减少人员财产的损失。  【关键词】屠宰场;雷击事故;调查;整改  1.事故处理  1.1 事故勘察过程  2012年9月11日,我所接花都大陵新村内花都天诚食品有限公司-肉类联合加工厂(下称:屠宰场)化粪池遭受雷击事故,立即前往现场调查雷击事故情况,并对屠宰场进行现场检测。根
期刊
推动高能效创新的安森美半导体(ON Semiconductor)已与客户科博达技术有限公司(科博达)及同济大学签署协议,将共同在同济大学校园内建立汽车电子实验室,推动中国不断发展的汽车电子领域的创新。
期刊
【摘要】在现在社会各界普遍对职业教育的重视和关注下,就业环境影响下的对技能型人才的渴望,就更加的要求职业学校强化对学生的技能训练。《电热电动器具原理与维修》是一门理论与实践关联性极强的课程,如何从真正意义上来实现两者的统一,是值得我们每一位相关专业教师思考的问题。  【关键词】电热电动;排故;实训;五步曲  电子技术的飞速发展,使家电技术也是日新月异,这样市场上对专业的家电安装和维修人员的需求也是
期刊
【摘要】本文在超声波测距的原理提出了一种导盲眼镜的设计方法。该设计以51单片机为主控核心,将超声波测距后的距离等信息通过语音合成技术实时播报出来。该系统在调整校正后有效距离可达4m以上,精度为2cm。有效地解决了盲人安全行走的问题。  【关键词】超声波;测距;语音合成技术  一、背景及意义  中国是全世界盲人最多的国家之一,目前我国眼部残疾人士多达600万,占世界眼疾人数的18%。眼部疾病在中国也
期刊
美国国防部先进研究项目局(DARPA)目前正在开发一种新型的人脑芯片。据悉,这款芯片能够移植人脑记忆以及删除人脑中的某些特定记忆。这是一项令人感到兴奋的研究项目,因为对于我们大部分人来说,这种科技仅存在于科幻小说中。  DARPA大脑芯片工作原因很简单:首先备份某个人大脑已存储的数据,当这个人大脑受到损害,植入芯片就可以将已备份的数据传输至大脑,使其恢复记忆。目前,DARPA正在寻求与其他公司的合
期刊