论文部分内容阅读
摘 要:随着“互联网+”时代的发展,人们已经从各种信息数据的使用和接收方变为数据的发送方,基于大数据的应用日渐成熟,各种行业类型的数据时刻都在产生着,基于大数据的应用系统就是在如此庞大的数据量的基础上建立的应用系统,系统应当具备强大的数据处理和分析能力,才能够在海量的数据当中寻求出有价值的数据,为行业发展提供洞察力和优化行业流程,为决策层提供精准决策,从而使得用户能够掌握庞大的数据信息资产。基于大数据的应用技术核心优势就是对有价值的数据进行处理和分析,本课题研究介绍了基于大数据应用技术的数据分析系统架构的实现过程。
关键词:大数据;数据分析;系统架构
在信息时代的今天,各个行业领域都有大量的数据,善于分析利用这些数据,能够为行业带来巨大的发展空间,甚至能够引起行业的变革,因此基于大数据的应用的关键技术就是数据分析的系统的架构。
基于大数据的应用的出现,给传统的数据分析系统架构带来了新的挑战,数据分析是隐藏在应用系统的背后,对于应用分析结果有举足轻重的作用,随着数据挖掘、探索等技术的发展,基于大数据的数据分析系统架构应该侧重解决传统数据分析的三个瓶颈问题:第一,分布式计算,分布式计算的设计思路是多个节点并行计算,强调的是数据本地化,数据尽可能少传输。第二,分布式存储,所谓分布式存储就是将一个大文件拆分为多个小文件分别存储到不同的主机,通过分片式管理技术对文件进行管理。第三,数据的检索和存储相结合,基于大数据的数据分析面临着海量的数据和多种数据类型,在不规范的数据中进行数据检索。
一、基于大数据的应用系统架构
在Hadoop体系的分布式应用中,基于大数据的数据分析应用架构已经和大数据信息架构互相结合,为各个行业领域在大数据的应用中带来了许多经济价值和数据信息资产,Hadoop体系采用云计算和分布式的应用技术,能够对大数据进行处理和分析,对未来大数据的信息中更大价值的数据源进行进一步的数据挖掘,会获得更大的数据潜在价值。
(一)Hadoop对日志数据处理
目前互联网站点的数量在呈指数级别增长,Web服务器会因为业务量的剧增而生成庞大的数据日志文件数据,其中包括了网址访问和业务数据流程处理的相关数据,这些日志文件数据会通过一系列的云计算算法处理后,上传到云端,通过分析处理这些数据能够反映给整个应用系统的实时运行状态,同时也可以反馈遇到的一系列系统异常问题。
(二)Hadoop并行处理系统架构
在Hadoop体系的分布式大数据应用中,数据采集模块会将采集到的各种类型的数据传送到Hadoop的并行处理系统架构中,然后信息数据被保存到HDFS中,传送的数据会被Hadoop体系中的MapReduce并行计算编程模型作为框架来进行系统化处理,MapReduce分布式的并行计算编程模型能够有效地解决数据分布范围大并且零散导致采集难的问题,这些信息数据会在分析前被分散到各个分节点,然后系统会利用就近原则读取相邻节点的数据,然后映射数据进行处理分析,经过处理分析后的数据会被再进行数据汇聚合并,所以基于Hadoop体系的大数据分析应用具备高速、可靠的特点,能够满足大数据的数据处理和分析的需求。
二、基于大数据的数据分析系统架构
(一)传统的大数据数据分析架构
传统的大数据数据分析架构,传统的BI数据分析,由于数据量和系统性能不能满足大数据,所以基于此类的数据分析技术上是使用了大数据的数据分析组件替换传统的BI系统组件,保留了大数据的ETL操作,相对解决基于大数据的BI数据分析。整个架构相对简单易懂,缺点就是缺乏对实时数据分析的支持。
(二)流式数据分析架构
数据在应用过程中全部以流的形式进行分析处理,直接去掉了数据批处理,用数据通道替换了ETL操作,经过流式数据分析处理加工后的数据,以信息推送的方式推送给用户,相对于其他数据分析架构,流式架构由于取消ETL操作,所以数据的处理效率非常高,但是由于没有了数据批处理,没有很好的支撑数据统计和重播,不利于离线进行数据分析。
(三)Lambda数据分析结构
在大数据分析系统中Lambda架构是比较重要的一种数据分析架构方式,大多数的架构都是基于这种架构,Lambda架构的数据通道分为两个:实时数据流分析和离线数据分析,实时数据流的分析架构是流式架构,多数采用增量式计算,保障了数据处理分析的实时性,离线数据分析就以全量运算的数据批处理为主,保证了数据的一致性。在Lambda架构的最外层是一个实时和离线的数据分析合并层,这个合并层是Lambda架构的关键,既集合了实时数据分析和离线数据分析的优点,对于数据分析的应用比较广泛,适合于对实时数据分析和离线数据分析同时需求存在的场景。
(四)Kappa数据分析架构
Kappa数据分析架构是在Lambda架构的基础进行优化,在数据通道上把实时数据分析和流式数据分析进行了合并,以消息队列进行数据传输。在以Kappa架构的数据分析上来讲,还是以数据流的分析形式为主,不同的是数据存储是在数据湖层面上,当需要对离线数据分析或者执行重新的数据分析操作时候,只需要把数据从数据湖层以消息队列的方式将数据重播一次就行了。Kappa数据分析架构去除了Lambda架构当中的冗余部分,将数据分析重播作为创新的形式加入到架构当中,Kappa结构整体相当简洁,缺点就是虽然结构简洁,但是由于数据分析重播部分实现难度较高,所以总体架构难度比较大。
(五)Unifield数据分析架构
以上的几种数据分析架构都是以处理海量数据为主,Unifield数据分析架构是将数据处理分析与机器学习整合为一体,从架构的核心层面来看,Unifield数据分析架构还是基于Lambda架构,只是在数据流分析层加入了机器学习层,增加了数据模型训练,数据在加载后从数据通道到数据湖后,进行数据模型训练,然后提供给数据分析流层调用,同时数据分析流层会对数据进行持续的数据模型训练Unifield数据分析架构套数据分析与机器学习的架构,很好的解决了数据分析平台与人工智能领域相结合的问题,适合使用在基于大数据下的数据分析下的人工智能应用中,缺点就是由于整合了机器学习层,要求架构技术更高。
三、结束语
本课题分析了基于大数据的数据分析架构,并且提出了一些可行的数据分析架构方案,分别归纳出各种数据分析架构的性能、可靠性和优缺点,希望在未来的信息科技时代,我们能够善用大数据,为社会各行业提供更多的有价值数据分析,使得我国在大数据分析的技术方面迈向新的发展。
参考文献:
[1]陈琳,陈耀华.以信息化带动教育现代化路径探析[J].教育研究.2013(11).
[2]王胜,聂立武,韩古月.智慧教育内涵与教学体系研究[J].辽宁高职学报.2015(11):21-23.
[3]祝智庭,贺斌.智慧教育——教育信息化的新境界[J].电化教育研究.2012(12):5-7.
[4]樊娜,黄雪琴.大数据时代下的个性化学习探讨[J].科技风,2015(7):23.
[5]杨现民.信息时代智慧教育的内涵与特征[J].中国电化教育,2014(1):29-34.
[6]陈律.大数据背景下学习分析技术对教学模式的变革[J].中国教育信息化,2015(24):15-17.
作者簡介:
李超宇(1982—),男,广西梧州人,高校讲师,网络工程师,工学硕士,主要从事云计算、大数据与计算机网络方面的研究。
基金项目:
2016年度广西壮族自治区中青年基础能力提升项目“基于大数据的教育技术信息平台的应用研究”(KY2016YB899)
关键词:大数据;数据分析;系统架构
在信息时代的今天,各个行业领域都有大量的数据,善于分析利用这些数据,能够为行业带来巨大的发展空间,甚至能够引起行业的变革,因此基于大数据的应用的关键技术就是数据分析的系统的架构。
基于大数据的应用的出现,给传统的数据分析系统架构带来了新的挑战,数据分析是隐藏在应用系统的背后,对于应用分析结果有举足轻重的作用,随着数据挖掘、探索等技术的发展,基于大数据的数据分析系统架构应该侧重解决传统数据分析的三个瓶颈问题:第一,分布式计算,分布式计算的设计思路是多个节点并行计算,强调的是数据本地化,数据尽可能少传输。第二,分布式存储,所谓分布式存储就是将一个大文件拆分为多个小文件分别存储到不同的主机,通过分片式管理技术对文件进行管理。第三,数据的检索和存储相结合,基于大数据的数据分析面临着海量的数据和多种数据类型,在不规范的数据中进行数据检索。
一、基于大数据的应用系统架构
在Hadoop体系的分布式应用中,基于大数据的数据分析应用架构已经和大数据信息架构互相结合,为各个行业领域在大数据的应用中带来了许多经济价值和数据信息资产,Hadoop体系采用云计算和分布式的应用技术,能够对大数据进行处理和分析,对未来大数据的信息中更大价值的数据源进行进一步的数据挖掘,会获得更大的数据潜在价值。
(一)Hadoop对日志数据处理
目前互联网站点的数量在呈指数级别增长,Web服务器会因为业务量的剧增而生成庞大的数据日志文件数据,其中包括了网址访问和业务数据流程处理的相关数据,这些日志文件数据会通过一系列的云计算算法处理后,上传到云端,通过分析处理这些数据能够反映给整个应用系统的实时运行状态,同时也可以反馈遇到的一系列系统异常问题。
(二)Hadoop并行处理系统架构
在Hadoop体系的分布式大数据应用中,数据采集模块会将采集到的各种类型的数据传送到Hadoop的并行处理系统架构中,然后信息数据被保存到HDFS中,传送的数据会被Hadoop体系中的MapReduce并行计算编程模型作为框架来进行系统化处理,MapReduce分布式的并行计算编程模型能够有效地解决数据分布范围大并且零散导致采集难的问题,这些信息数据会在分析前被分散到各个分节点,然后系统会利用就近原则读取相邻节点的数据,然后映射数据进行处理分析,经过处理分析后的数据会被再进行数据汇聚合并,所以基于Hadoop体系的大数据分析应用具备高速、可靠的特点,能够满足大数据的数据处理和分析的需求。
二、基于大数据的数据分析系统架构
(一)传统的大数据数据分析架构
传统的大数据数据分析架构,传统的BI数据分析,由于数据量和系统性能不能满足大数据,所以基于此类的数据分析技术上是使用了大数据的数据分析组件替换传统的BI系统组件,保留了大数据的ETL操作,相对解决基于大数据的BI数据分析。整个架构相对简单易懂,缺点就是缺乏对实时数据分析的支持。
(二)流式数据分析架构
数据在应用过程中全部以流的形式进行分析处理,直接去掉了数据批处理,用数据通道替换了ETL操作,经过流式数据分析处理加工后的数据,以信息推送的方式推送给用户,相对于其他数据分析架构,流式架构由于取消ETL操作,所以数据的处理效率非常高,但是由于没有了数据批处理,没有很好的支撑数据统计和重播,不利于离线进行数据分析。
(三)Lambda数据分析结构
在大数据分析系统中Lambda架构是比较重要的一种数据分析架构方式,大多数的架构都是基于这种架构,Lambda架构的数据通道分为两个:实时数据流分析和离线数据分析,实时数据流的分析架构是流式架构,多数采用增量式计算,保障了数据处理分析的实时性,离线数据分析就以全量运算的数据批处理为主,保证了数据的一致性。在Lambda架构的最外层是一个实时和离线的数据分析合并层,这个合并层是Lambda架构的关键,既集合了实时数据分析和离线数据分析的优点,对于数据分析的应用比较广泛,适合于对实时数据分析和离线数据分析同时需求存在的场景。
(四)Kappa数据分析架构
Kappa数据分析架构是在Lambda架构的基础进行优化,在数据通道上把实时数据分析和流式数据分析进行了合并,以消息队列进行数据传输。在以Kappa架构的数据分析上来讲,还是以数据流的分析形式为主,不同的是数据存储是在数据湖层面上,当需要对离线数据分析或者执行重新的数据分析操作时候,只需要把数据从数据湖层以消息队列的方式将数据重播一次就行了。Kappa数据分析架构去除了Lambda架构当中的冗余部分,将数据分析重播作为创新的形式加入到架构当中,Kappa结构整体相当简洁,缺点就是虽然结构简洁,但是由于数据分析重播部分实现难度较高,所以总体架构难度比较大。
(五)Unifield数据分析架构
以上的几种数据分析架构都是以处理海量数据为主,Unifield数据分析架构是将数据处理分析与机器学习整合为一体,从架构的核心层面来看,Unifield数据分析架构还是基于Lambda架构,只是在数据流分析层加入了机器学习层,增加了数据模型训练,数据在加载后从数据通道到数据湖后,进行数据模型训练,然后提供给数据分析流层调用,同时数据分析流层会对数据进行持续的数据模型训练Unifield数据分析架构套数据分析与机器学习的架构,很好的解决了数据分析平台与人工智能领域相结合的问题,适合使用在基于大数据下的数据分析下的人工智能应用中,缺点就是由于整合了机器学习层,要求架构技术更高。
三、结束语
本课题分析了基于大数据的数据分析架构,并且提出了一些可行的数据分析架构方案,分别归纳出各种数据分析架构的性能、可靠性和优缺点,希望在未来的信息科技时代,我们能够善用大数据,为社会各行业提供更多的有价值数据分析,使得我国在大数据分析的技术方面迈向新的发展。
参考文献:
[1]陈琳,陈耀华.以信息化带动教育现代化路径探析[J].教育研究.2013(11).
[2]王胜,聂立武,韩古月.智慧教育内涵与教学体系研究[J].辽宁高职学报.2015(11):21-23.
[3]祝智庭,贺斌.智慧教育——教育信息化的新境界[J].电化教育研究.2012(12):5-7.
[4]樊娜,黄雪琴.大数据时代下的个性化学习探讨[J].科技风,2015(7):23.
[5]杨现民.信息时代智慧教育的内涵与特征[J].中国电化教育,2014(1):29-34.
[6]陈律.大数据背景下学习分析技术对教学模式的变革[J].中国教育信息化,2015(24):15-17.
作者簡介:
李超宇(1982—),男,广西梧州人,高校讲师,网络工程师,工学硕士,主要从事云计算、大数据与计算机网络方面的研究。
基金项目:
2016年度广西壮族自治区中青年基础能力提升项目“基于大数据的教育技术信息平台的应用研究”(KY2016YB899)