基于分布式大数据的图书馆服务创新模式探索

来源 :新世纪图书馆 | 被引量 : 0次 | 上传用户:iamdade
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 在数字化电子图书馆的建设中,海量的资源建设与日益多元的智能服务之间的矛盾逐渐显现。论文提出分布式大数据处理技术可以为图书馆提供智能服务创造新的机遇。当前,应该把握分布式大数据技术为图书馆发展所提供的机遇,利用分布式大数据技术对海量数据进行分析、处理,提取出所需知识,拓展图书馆的服务领域,促进图书馆服务模式不断创新。
  关键词 网络信息技术 分布式系统 大数据 数字化电子图书馆
  分类号 G250.7
  DOI 10.16810/j.cnki.1672-514X.2016.07.015
  Novel Exploration on Library Services Based on Distributed Big Data
  Gao Qun
  Abstract The contradictions between the construction of massive information and the increasingly diverse services appeared gradually in the construction of digital electronic library. This paper points out that the distributed big data processing technology provides the new opportunities for the intelligent services of library. Currently, we should seize the opportunity provided by the distributed big data processing technology for the development of libraries, and apply the distributed big data processing technology to analyze, process and extract the needed knowledge, so as to expand the library services and promote the service innovation.
  Keywords Network technology. Distributed system. Big data. Digital electronic library.
  从1996年开始,经过近二十年的发展,我国的数字图书馆建设成就斐然,主要表现为资源内容丰富,结构化比较完整、用户访问量大、投资效益高、多为政府投资、注重馆际合作、公益性服务社会效益好[1]。然而,在信息量急剧增长的今天,数字图书馆的建设面临新的需求与挑战。藉此,本文将重点围绕大数据背景下数字图书馆的建设及其服务模式进行探讨。
  1 理论背景
  1.1 “分布式大数据”概念简介
  分布式处理技术是一种通过充分利用计算资源分布式网格能力,以支持在计算机集群上对大数据进行分布式处理的数据管理与分析技术。
  实现完备的分布式处理框架通常包括了通用实用程序、分布式文件系统、分析和数据存储平台以及一个用于管理分布式处理、并行计算、工作流程与配置管理的应用层。除了提供高可用性外,分布式处理框架比传统方法能更经济高效地处理大型的、复杂结构的或非结构化的数据集,同时具有出色的可扩展性与计算速度。
  对于大数据的描述通常使用“4V+1C”[3],即容量(volume)、多样性(variety)、更新快速(velocity)、真实准确(veracity)和处理复杂(complexity)。容量上,比传统存储和分析解决方案所管理的数据大几个数量级的巨型数据集;多样性方面,以视屏、图像、文本、传感器数据以及“影子数据”等不同格式生成的异构、复杂和多样化的数据;更新速度快主要表现在数据都是以一个可实时查询的连续数据流的形式存在,可以根据需求提供有用信息,而不是批量生成;真实可靠具体表现在信息分析和解释上担当更重要的角色,可根据数据做出正确的、有效的、有依据的决定;处理复杂是由于大数据本身的特性所造成的,主要是指大数据的存储、实时查询和知识获取对硬件设备、操作系统以及智能算法的要求。
  随着智能设备及其系统应用的持续扩展,从这些源头收集到的海量数据使得原有人工图书馆管理成为历史。笔者认为只有结合分布式大数据处理技术才能促使传统图书馆的转型与发展,使其成为广泛互联和移动共享的图书馆[4],进而能够拥有更多样的服务模式和更强大的服务能力。
  1.2 分布式大数据处理技术为数字化电子图书馆的建设以及服务模式创新提供机遇
  图书馆存储了海量数据,是一种典型的大数据资源系统。当前,大数据环境下的图书馆主要存在两方面的问题:(1)数据存储问题;(2)数据的实时访问、处理以及推送问题。如何有效地组织并分析海量数据,提升对读者的服务质量,这就需要将分布式大数据处理技术引进到当前的图书馆系统中,为数字图书馆的建设服务提供保障。
  首先,传统的数据存储系统已不能满足大数据的需求。大数据时代,由于智能化信息技术的发展,收集到的数据不仅数据量巨大而且数据类型多样,包括非结构化、半结构化以及结构化的各种复杂数据。单一的存储系统已然不能满足当前数据增长的需求。目前,各种新兴的存储系统层出不穷,其中云存储[5]是一种最典型的存储系统,其利用高速互联网的传输能力,将所有的数据和服务都放在“网络云”(大型数据处理中心)中,用户只要有一个上网的终端就可以获得商家提供的服务。但随着大数据环境复杂度和大数据应用需求的增长,云存储服务已经不能满足用户的服务需求。具体体现在:(1)用户不愿将个人阅读隐私及安全性交给商家管理;(2)云空间存储缺乏对用户的行为进行分析与挖掘,不能准确掌握用户行为的变化趋势,进而丧失了图书馆个性化智能服务的重要特性;(3)随着网络信息技术的不断发展,极大规模数据的存储、定位和推送势必会影响用户的阅读体验,例如实时性,准确性及低成本等因素。   再者,数据的实时访问、处理及推送问题。正如上一问题所涉及,随着传感器、智能设备及网络信息技术的持续扩展,数据量呈指数级别增长,超大规模数据的存储、实时访问、处理及推送等问题考验着包括最先进的分析工具的吞吐能力。
  分布式大数据技术的出现弥补了先前电子图书馆的不足,为新型数字图书馆的建设和服务模式提供了机遇。图书馆的业务将向数据分析和数据挖掘方向倾斜,对海量数据的分析、处理及读者体验将成为图书馆的主要业务,图书馆资源数据量的扩展、服务质量的提升、服务策略的转变不只限于依靠开放公共图书馆、增加图书数量、延长服务时间等措施,利用分布式大数据处理技术为用户提供快捷、方便的个性化服务符合当前的图书馆发展趋势。
  1.3 以存储为中心向以新型服务为中心模式转变
  在大数据背景下,用户的个性化需求越来越多,对信息数量和质量的要求也不断提高,因此,对图书馆的建设提出了更为严格的服务要求。
  目前,大部分的图书馆均属于以存储为中心,服务效率低下。以存储为中心存在如下弊端:(1)资源利用率极低,限制了用户对数据的有效、实时访问;(2)用户体验不足,以各个图书馆为单位的存储管理系统之间存在较大的差异,它们之间往往不能兼容,用户不能随时访问需要的数据知识,更不可能提供方便快捷的个性化服务。
  综上,在大数据时代背景下,以存储为中心的图书馆应向以服务为中心的智能图书馆转变,以分布式大数据处理技术为依托,以更好地改善用户体验为目标,建设以人为本、智能化服务的图书馆。以服务为中心的图书馆应具有以下功能。(1)新型智能知识服务。从海量数据中分析挖掘用户行为,根据用户喜好配置资源,达到合理购置和分配资源,方便用户利用各种终端设备随时随地查询资料并阅读。(2)新型大数据存储。采用分布式数据存储系统,大幅度提高存储效率,配合分布式系统框架,为用户提供快速的分布式查询和数据推送。(3)新型数字图书馆管理。与传统图书馆管理不同,新型数字图书馆的管理更多地依赖于各个分布式存储设备以及分布式智能算法,使得数据资源查询、分配以及共享更多地实现智能化分析、决策与管理,实现高智能,在优化图书馆服务管理体系的同时降低图书馆运营成本。
  2 数字图书馆新型服务模式的构建
  在信息量激增的当下,传统的图书馆服务模式已不再适用,建设智能服务模式的数字图书馆迫在眉睫。一些新兴技术的普及,使得大数据背景下的图书馆智能服务成为可能。
  2.1 基于分布式大数据处理技术的智能服务系统模型
  将分布式大数据处理技术应用于图书馆服务,使图书馆服务更加智能化。利用分布式存储系统将海量数据存储到各个分散的存储单元中,实现真正意义上的大数据资源高速存储、运算、分析与决策[6],再通过分布式系统快速处理分散在各处的大规模数据,能够实现实时响应用户的查询并做出反馈。最后,用户可以通过一些终端设备查询并接受分布式系统所反馈的数据信息。该系统的模型图如1所示。
  如图1所示,用户通过终端设备输入查询命令,经过网络的传输到达分布式终端系统,经过分布式系统的并行决策,将查找到的资料返回给用户。另外分布式系统会给用户智能推荐相关资料。可以看出,该智能化的服务模式符合未来数字图书馆的发展方向。
  2.2 基于分布式大数据处理技术的智能服务系统架构
  基于分布式大数据处理技术的智能服务图书馆架构主要有四层,其中的网络层主要有2G、3G、4G、局域网、无线局域网等网络体系。数据层采用分布式存储技术,主要存储图书资料以及不断增长的海量数据信息。应用层采用分布式系统实现对用户查询信息的实时反馈,同时结合数据挖掘算法,向用户提供智能、有价值的相关资料信息。终端层的各种智能设备可以通过网络层向应用层发出查询命令,同时可以作为数据输入的媒介,数据挖掘算法可以根据用户的输入信息发现用户的偏好等。最终经过应用层分布式系统的反馈,智能终端可以作为数据输出的媒介呈现给用户。
  3 基于分布式大数据处理技术的智能图书馆服务创新模式探索
  《自然》杂志专刊指出,有效的组织利用大数据,人类将会得到更多的机会发挥科学技术对社会发展的巨大推动作用[7]。而分布式系统赋予了人类操作大数据的能力,通过将分布式信息处理技术结合到大数据图书馆中,为传统图书馆注入血液,使其更好地服务用户。因此,图书馆必须抓住这些新技术带来的机遇,融会贯通,详细了解和牢固掌握分布式大数据技术,并应用于图书馆管理与服务中。
  3.1 资源服务创新
  文献信息资源是关系图书馆开展图书知识服务的基础。数字化电子图书馆应该包括传统的各类纸质资源、电子化多媒体资源及不断收集积累的非馆藏有使用权的电子资源。利用各种信息收集工具,如发布软件等,在互联网或物联网上动态收集最新的信息知识,按照行业内互认的数据标准规范,转化为统一的数据存储格式,利用大数据分布式存储技术将收集到的海量数据进行存储,最大限度地整合信息资源,形成多层次的信息共享服务体系,并借助于分布式系统充分发挥并挖掘海量数据的潜在价值,彻底打破信息壁垒、消除信息孤岛[8]。本文具体将从图书资源仓库的构建以及图书资源物流管理两个方面来讨论。
  利用分布式大数据技术整合全球一切知识储备并不断收集新的资源信息。通过将信息按各种途径分类,构建覆盖各个领域的全方位综合性图书资源仓库;建立不同地区资源仓库,通过分布在不同地区的存储服务器,收集当地的信息资源,并存储到当地服务器;按照行业管理和业务流程对信息进行归纳、整理、分类,通过分布式操作系统,将数据资源索引上传到所有服务器,满足各个地区、不同人群的迅速检索和资源下载使用;通过分布式系统以及收集到的信息,汇总各种信息资源,如财经、科技等等,促进知识传播,行业互补,协同发展。
  传递海量的信息以满足所有读者的不同需求具有一定的挑战性。在业务层,我们可借鉴云开放式存储架构,通过维护一个系数的、分布式的、持久化存储的多维度排序映射表,并将由该映射表构成的非关系型数据库部署到所有服务器上,从而达到处理大规模海量数据的要求。当终端发出数据请求时,分布式系统首先根据请求概要内容和该映射表中的第一级索引进行定位,在第一级索引初步定位后,搜索空间便大大缩小,接着根据请求内容中的诸如主题等信息结合二级索引继续检索,此过程一直持续到返回存储用户需求数据的服务器路径或不存在查找内容提示为止。同时,在物理层应适当增加物理存储设备,减轻分布式系统总线传输负担,最大限度满足读者的实时性需求。   3.2 技术服务创新
  分布式大数据处理技术的出现,为图书馆提供各种新型智能服务创造了新的机遇。
  提供个性化私人虚拟图书馆服务。基于分布式大数据技术的数字图书馆可以为每一位读者提供网络虚拟存储空间,用以存放读者的私人电子图书。分布式系统通过对读者的阅读习惯进行分析,分析该类读者的阅读偏向及兴趣方向,并同读者进行网络交流,总结出读者所需资源;通过各种途径如馆藏数据库、分布式存储网络数据库等,应用智能代理技术,以满足读者需求为服务宗旨,结合不同读者的个性化需求进行定制,形成读者自己的特色图书资源,建立起适合于不同读者自己的私人虚拟图书馆,实现完全的个性化信息服务。
  具有个性化特征的专业推送服务。随着网络信息技术的发展以及不同读者对不同专业的偏向,读者在各自所关注的领域都有比较丰富的背景知识。因此,读者往往对相关领域的图书信息有比较强的个性化需求,表现出独特的兴趣。因此,数字图书馆在面对不同读者时需要关注其特有的信息需求,通过在分布式系统中嵌入一些智能算法,例如迁移学习[9]、多任务学习[10]等等,向读者推荐专业相关的图书资源,供读者选择。这种个性化推送服务模式可以让不同的读者更方便、高效、便捷地获取信息资源。
  此外,一些多元化的服务借助于分布式大数据处理技术得以方便使用与充分享用。如开展网上预约、借阅、馆际互借等新服务;开展信息导航等向复合化、多元化发展的服务。通过各种终端设备发布信息资源,形成一个新旧兼容,多元并存,相互支撑的数字图书馆新格局。
  3.3 管理服务创新
  大数据给传统图书馆带来挑战,更多的是一种机遇。图书馆承载着历史的使命与民族的希望,其不仅是构建技术创新体系的重要力量,而且承担着传承知识的重大使命。因此,完善数字图书馆管理制度势在必行,具体措施有以下几点。(1)坚持以公益性无偿服务为主,适当辅之以市场化手段运作;坚持优化服务理念,提升服务质量。“如果没有优秀的管理者,就不会有优秀的群体”,著名管理大师斯蒂芬·P·罗宾斯如是说。因此,打造一致精良的管理队伍对于数字图书馆的管理十分必要。在新的网络环境下,需要对馆员进行专业业务培训和素质教育,提高馆员的理论水平和专业技能。(2)广泛动员社会力量参与图书馆建设,优化投资结构,坚持版权保护,保障用户信息的安全性与可靠性。新的网络环境下,读者在保障自身权利的同时,有义务参与到信息网络安全构建中去。只有人人从自我做起,才能使得数字图书馆在安全的氛围中更好地为读者服务。(3)完善图书馆管理制度,优化资源配置,注重参考咨询、科技查新。(4)注重优化管理,最大限度地满足用户体验,始终坚持以人为本的服务理念,使用户切身体会到基于分布式大数据技术的图书馆智能化服务带来的好处。
  4 结语
  在大数据背景下,图书馆数据环境呈现出“4V+1C”的特点,传统的图书馆存储尤其是服务模式已经不能满足大数据环境下用户的阅读服务需求。随着分布式大数据处理技术的出现,其为传统图书馆的管理和服务模式带来了机遇。本文结合图书馆海量数据的特性,构建了基于分布式大数据处理技术的服务型数字图书馆。其以读者阅读需求和分布式大数据决策保障为中心,采用分布式存储、分布式系统处理、智能推送等技术,构建出安全、实时、全面的服务型数字图书馆,大幅度减少了大数据储存资源配置困难,数据决策复杂,用户响应缓慢等等问题。
  参考文献:
  [ 1 ] 陈传夫,钱欧,代钰珠.大数据时代的数字图书馆建设研究[J].图书情报工作, 2014, 58(7): 40-45.
  [ 2 ] Big data, Big impact: new possibilities for international development[EB/OL].[2013-12-17].http://weformu.org/reports/big-data-impact-new-possibilities-international-development.
  [ 3 ] 郑毅.大数据时代的特点[J].新金融评论,2012(1): 72-84.
  [ 4 ] 王世伟.再论智慧图书馆[J].图书馆杂志,2012(11):2-7.
  [ 5 ] ANGLANO C, GAETA R, GRANGETTO M. Exploiting Rateless Codes in Cloud Storage Systems[J].IEEE Transactions on Parallel and Distributed Systems, 2015, 26(5): 1313-1322.
  [ 6 ] 陈臣.一种基于新型存储的数字图书馆分布式大数据存储架构[J].现代情报, 2015, 35(1): 100-103.
  [ 7 ] 李新玲.大数据:应用跑到了科研前头[N].中国青年报, 2012-11-08(12).
  [ 8 ] 张敏, 霍朝光, 吴郁松.我国公共图书馆数字平台的信息孤岛问题研究:基于社会化网络的分析视角[J]. 图书馆建设, 2015, 11(20):77-82.
  [ 9 ] PAN S J, YANG Q. A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
  [10] LUO Y, WEN Y, TAO D, et al. Large margin multi-modal multi-task feature extraction for image classification[J].IEEE Transactions on Image Processing, 2016, 25(1): 414-427.
  高 群 江南大学图书馆馆员。江苏镇江,214122。
  (收稿日期:2015-12-02 编校:方玮)
其他文献
摘 要 微博的出现与发展极大地改变了互联网信息的传播模式,成为企业市场营销的重要工具,也给图书馆阅读推广带来了新的营销模式和机遇。论文分析了微博营销的特点,从了解用户需求、进行资源推介、维护馆读关系、提升品牌认知度、危机公关等方面剖析微博营销在阅读推广中的应用价值,并提出具体的营销策略。  关键词 微博 营销 阅读推广 大学图书馆  分类号 G252  The Application of Mic
我国部分高校图书馆的组织效能不强、组织效率较低、用户满意度不高,体制上的制约导致图书馆难以解决这些问题。论文引入图书馆治理理念,分析我国高校图书馆治理机构的主体—
摘 要 论文在网络和文献调研MOOC背景下的国内高校图书馆现状的基础上,论证高校图书馆推广MOOC的意义,并从数字图书馆、学科服务、信息素养、阅读推广和馆际联盟等五个路径探讨推广作用的措施。  关键词 高校图书馆 大规模在线开放课程 在线教育 数字图书馆  分类号 G258.6  MOOC是Massive Open Online Course(大规模在线开放课程)的英文简称,国内有学者将其译为“慕