论文部分内容阅读
[摘 要]大数据时代的来临正在给各行各业及整个社会文化带来了根本性的变革。信息技术的快速发展给图书馆的发展带来了前所未有的机遇和挑战,图书馆大数据应用就是在这样的历史条件下应运而生。随着大数据时代的来临,人们对智能信息的需求更加迫切,这为图书馆特别是大学图书馆的管理和服务提出了新挑战。图书馆界已针对大数据开展了一定的学术研究与实践应用。
[关键词]图书馆 大数据
中图分类号:TN 文献标识码:A 文章编号:1009-914X(2017)04-0344-01
当下,我们生活在一个数据看似无穷无尽的年代。我们仰仗数据完成各色各样的任务,从治理经济到推动科学进步,到保存记录健康信息的电子病历,不一而足。我们已经逐渐意识到,必须获取大数据分析所呈现的洞察力,将洞察力转化为信息、知识和最终行动,真正了解和获取大数据的价值。
图书馆如何实现并满足读者与社会越来越高的数据资源服务要求,是需要我们进行深入探索和研究的重要课题。而大数据技术的普及与应用,将为智慧图书馆的发展提供有力的技术支撑。
1.大数据概述
1.1 什么是大数据
狭义的大数据,主要是指大数据的相关关键技术及其在各个领域中的应用,是指从各种各样类型的数据中,快速的获得有价值的信息的能力。
广义上讲,大数据包括大数据技术、大数据工程、大数据科学和大数据应用等大数据相关的领域。即除了狭义的大数据之外,还包括大数据工程和大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程;大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
1.2 大数据特征
目前,大家公认的是大数据有四个基本特征:数据规模大(Volume)、数据种类多(Variety)、处理速度快(Velocity)及数据价值密度低(Value),及所谓的4V特征。
2.大數据相关技术与应用
大数据领域已经涌现了大量新的技术,他们成为大数据采集、存储、处理和呈现的有力武器。大数据处理相关技术一般包括:大数据采集、大数据准备、大数据存储、大数据分析与挖掘以及大数据展示与可视化等。
2.1 大数据采集
大数据采集是指通过RFID射频数据、传感器数据、视频摄像头的实时数据、来自历史视频的非实时数据,以及社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集和其他数据采集四种。
2.2 大数据准备
大数据准备主要是完成对数据的抽取,转换和加载等操作。因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助用户将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。目前主要的ETL工具是Flume和Kettle。
2.3 大数据存储
大数据对存储管理技术的挑战主要在于扩展性。目前,主要的大数据组织存储工具包括:HDFS,它是一个分布式文件系统,是Hadoop体系中数据存储管理的基础;NoSQL,泛指非关系型的数据库,可以处理超大量的数据;HBase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。
2.4 大数据分析与挖掘
大数据分析与挖掘技术是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目标提供决策参考。目前主要的大数据计算与分析软件包括Datawatch、Stata、Matlab、SPSS等。
2.5 大数据展示与可视化
大数据可视化技术可以提供更为清晰直观的数据表现形式,将错综复杂的数据和数据之间的关系,通过图片、银蛇关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户,供其分析使用。
3.图书馆大数据应用挑战
3.1 思想观念革新
当前,各图书馆的信息化建设与数据应用依然处于比较传统的境地,如何面对图书馆大数据应用的质疑,推动图书数据应用领域的大数据技术,提升知识服务能力,是图书馆在大数据时代需要面临与解决的问题。
3.2 数据利用率低
相较于图书馆不断增长的数据量而言,更够分析并提供价值的数据比例正在不断降低,如何充分把握大数据所带来的技术优势与数据分析方法,对提升图书馆的各项知识服务与智能辅助决策能力十分重要。
3.3 基础设施挑战
大数据应用在数据采集、准备、存储以至于分析挖掘与可视化展现等各个应用环节都对当前图书馆的软硬件基础设施提出了比较高的要求。这其中包括了大规模服务器集群、海量数据存储设备、高速可信的网络条件以及大数据挖掘展现的各项软硬件设备等。
4.图书馆大数据应用方向
图书馆对于大数据而言,通常有三种角色:大数据的使用者或受益者、大数据的提供者或开发者及大数据的运营者或维护者。而大数据的应用无论对图书馆内部还是面对社会公众,都可以提供与以往截然不同的新型知识服务帮助。
4.1 针对图书馆内部提供大数据应用服务
1、可以帮助图书馆建立各类知识服务及业务建设的风险模型。即图书馆的各类风险评估模型,例如数字图书馆信息安全风险评估模型、信息资源采购及应用评估风险模型等,都可以通过大数据分析、预测及智能辅助决策技术建立具有自身机构特色的、科学的及实用的风险模型。
2、图书馆用户流失分析及价值分析。大数据技术不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要什么,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测。
3、可以帮助图书馆建立新型知识服务引擎。技术引擎是图书馆信息服务的技术核心,新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体(包括用户及资源)行为智能分析引擎、用户知识需求预测引擎、及多维度信息资源获取、组织、分析及决策引擎等。
4、可以通过分析资源(包括软硬件资源、网络资源、信息资源等)的状况来预测可能的故障,或对于资源突然的波动可以帮助图书馆制定应对策略。
5、可以帮助建立更加灵活的、智能的网络化信息资源智能组合方式。图书馆可以灵活、方便的从已有结构化及非结构化数据资源中抓取有用的知识、关系、模式、症状用于新的知识服务方式。
4.2 针对社会公众提供大数据应用服务
1、准确的数据推送服务。数据推送服务是指图书馆根据读者的需求,主动将读者所需要的信息内容推送到读者端,读者端的含义多样,包括读者访问网页、读者电脑的应用程序、读者的移动设备等。
2、细粒度个性化服务。大数据时代,圖书馆将利用大数据技术,参考目前盛行大数据环境下的”猿题库”模式,捕捉读者的动态操作行为,细化到读者的每一次点击,结合学科分析和行业分析,为读者建立灵活的个性化档案,灵活性表现在大数据技术能够自动监控读者行为的变化情况进行分析,自动调用不同层次、类别的数据智能式推送给读者。为图书馆实现细粒度个性化服务提供了可能。
3、深度的参考咨询服务。在大数据时代,咨询馆员可以将符合大数据特征的咨询课题融入大数据系统,系统将根据咨询主题,利用数据分析技术,可视化技术,瞬时以图形展示查询结果,从而缩短了咨询馆员获取资源的时间,扩大了咨询馆员对资源的获取面,从而最大限度的满足读者(特别是企业方面的读者)需求,提高了参考咨询的效率,并使图书馆深度参考咨询服务成为可能。
毫无疑问,大数据技术是图书情报领域无法逃避的未来技术发展形态,也为图书馆实现知识服务模式的转变、知识管理模式的突破、合作交互型知识创新模式的完善、知识服务流程的动态监测等业务需求提供了新的思路和解决方案。
参考文献
[1] 李鹏云,大数据与图书馆服务,2013.
[2] 樊伟红,图书馆需要怎样的“大数据”,2012.
[关键词]图书馆 大数据
中图分类号:TN 文献标识码:A 文章编号:1009-914X(2017)04-0344-01
当下,我们生活在一个数据看似无穷无尽的年代。我们仰仗数据完成各色各样的任务,从治理经济到推动科学进步,到保存记录健康信息的电子病历,不一而足。我们已经逐渐意识到,必须获取大数据分析所呈现的洞察力,将洞察力转化为信息、知识和最终行动,真正了解和获取大数据的价值。
图书馆如何实现并满足读者与社会越来越高的数据资源服务要求,是需要我们进行深入探索和研究的重要课题。而大数据技术的普及与应用,将为智慧图书馆的发展提供有力的技术支撑。
1.大数据概述
1.1 什么是大数据
狭义的大数据,主要是指大数据的相关关键技术及其在各个领域中的应用,是指从各种各样类型的数据中,快速的获得有价值的信息的能力。
广义上讲,大数据包括大数据技术、大数据工程、大数据科学和大数据应用等大数据相关的领域。即除了狭义的大数据之外,还包括大数据工程和大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程;大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
1.2 大数据特征
目前,大家公认的是大数据有四个基本特征:数据规模大(Volume)、数据种类多(Variety)、处理速度快(Velocity)及数据价值密度低(Value),及所谓的4V特征。
2.大數据相关技术与应用
大数据领域已经涌现了大量新的技术,他们成为大数据采集、存储、处理和呈现的有力武器。大数据处理相关技术一般包括:大数据采集、大数据准备、大数据存储、大数据分析与挖掘以及大数据展示与可视化等。
2.1 大数据采集
大数据采集是指通过RFID射频数据、传感器数据、视频摄像头的实时数据、来自历史视频的非实时数据,以及社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集和其他数据采集四种。
2.2 大数据准备
大数据准备主要是完成对数据的抽取,转换和加载等操作。因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助用户将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。目前主要的ETL工具是Flume和Kettle。
2.3 大数据存储
大数据对存储管理技术的挑战主要在于扩展性。目前,主要的大数据组织存储工具包括:HDFS,它是一个分布式文件系统,是Hadoop体系中数据存储管理的基础;NoSQL,泛指非关系型的数据库,可以处理超大量的数据;HBase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。
2.4 大数据分析与挖掘
大数据分析与挖掘技术是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目标提供决策参考。目前主要的大数据计算与分析软件包括Datawatch、Stata、Matlab、SPSS等。
2.5 大数据展示与可视化
大数据可视化技术可以提供更为清晰直观的数据表现形式,将错综复杂的数据和数据之间的关系,通过图片、银蛇关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户,供其分析使用。
3.图书馆大数据应用挑战
3.1 思想观念革新
当前,各图书馆的信息化建设与数据应用依然处于比较传统的境地,如何面对图书馆大数据应用的质疑,推动图书数据应用领域的大数据技术,提升知识服务能力,是图书馆在大数据时代需要面临与解决的问题。
3.2 数据利用率低
相较于图书馆不断增长的数据量而言,更够分析并提供价值的数据比例正在不断降低,如何充分把握大数据所带来的技术优势与数据分析方法,对提升图书馆的各项知识服务与智能辅助决策能力十分重要。
3.3 基础设施挑战
大数据应用在数据采集、准备、存储以至于分析挖掘与可视化展现等各个应用环节都对当前图书馆的软硬件基础设施提出了比较高的要求。这其中包括了大规模服务器集群、海量数据存储设备、高速可信的网络条件以及大数据挖掘展现的各项软硬件设备等。
4.图书馆大数据应用方向
图书馆对于大数据而言,通常有三种角色:大数据的使用者或受益者、大数据的提供者或开发者及大数据的运营者或维护者。而大数据的应用无论对图书馆内部还是面对社会公众,都可以提供与以往截然不同的新型知识服务帮助。
4.1 针对图书馆内部提供大数据应用服务
1、可以帮助图书馆建立各类知识服务及业务建设的风险模型。即图书馆的各类风险评估模型,例如数字图书馆信息安全风险评估模型、信息资源采购及应用评估风险模型等,都可以通过大数据分析、预测及智能辅助决策技术建立具有自身机构特色的、科学的及实用的风险模型。
2、图书馆用户流失分析及价值分析。大数据技术不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要什么,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测。
3、可以帮助图书馆建立新型知识服务引擎。技术引擎是图书馆信息服务的技术核心,新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体(包括用户及资源)行为智能分析引擎、用户知识需求预测引擎、及多维度信息资源获取、组织、分析及决策引擎等。
4、可以通过分析资源(包括软硬件资源、网络资源、信息资源等)的状况来预测可能的故障,或对于资源突然的波动可以帮助图书馆制定应对策略。
5、可以帮助建立更加灵活的、智能的网络化信息资源智能组合方式。图书馆可以灵活、方便的从已有结构化及非结构化数据资源中抓取有用的知识、关系、模式、症状用于新的知识服务方式。
4.2 针对社会公众提供大数据应用服务
1、准确的数据推送服务。数据推送服务是指图书馆根据读者的需求,主动将读者所需要的信息内容推送到读者端,读者端的含义多样,包括读者访问网页、读者电脑的应用程序、读者的移动设备等。
2、细粒度个性化服务。大数据时代,圖书馆将利用大数据技术,参考目前盛行大数据环境下的”猿题库”模式,捕捉读者的动态操作行为,细化到读者的每一次点击,结合学科分析和行业分析,为读者建立灵活的个性化档案,灵活性表现在大数据技术能够自动监控读者行为的变化情况进行分析,自动调用不同层次、类别的数据智能式推送给读者。为图书馆实现细粒度个性化服务提供了可能。
3、深度的参考咨询服务。在大数据时代,咨询馆员可以将符合大数据特征的咨询课题融入大数据系统,系统将根据咨询主题,利用数据分析技术,可视化技术,瞬时以图形展示查询结果,从而缩短了咨询馆员获取资源的时间,扩大了咨询馆员对资源的获取面,从而最大限度的满足读者(特别是企业方面的读者)需求,提高了参考咨询的效率,并使图书馆深度参考咨询服务成为可能。
毫无疑问,大数据技术是图书情报领域无法逃避的未来技术发展形态,也为图书馆实现知识服务模式的转变、知识管理模式的突破、合作交互型知识创新模式的完善、知识服务流程的动态监测等业务需求提供了新的思路和解决方案。
参考文献
[1] 李鹏云,大数据与图书馆服务,2013.
[2] 樊伟红,图书馆需要怎样的“大数据”,2012.