论文部分内容阅读
摘要:本文旨在论述云计算与大数据的关系,并展望了云计算与大数据不断发展,为人们提供通过云计算的方式提高大数据的应用能力。
关键词:云计算;大数据;趋势
1.云计算与大数据
云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用,云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。
30年前,存储也就是约1000GB数据的成本大约是16亿美元,如今存储到云上只需不到100美元。但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。目前,云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和商业模式。个人用户将文档、照片、视频、游戏存档记录上传至“云”中永久保存,企业客户根据自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT资源与服务,这些都已不是新鲜事。可以说,云是一棵挂满了大数据的苹果树。
大数据的出现,引发全球范技术与商业变革。在技术上以往更多是依靠模型的方法,现在可以借用规模庞大的数据,用基于统计的方法,有望使语音识别、机器翻译这些技术领域在大数据时代取得新的进展。在搜索引擎和在线广告中发挥重要作用的机器学习,被认为是大数据发挥真正价值的领域在海量的数据中统计分析出人的行为、习惯等方式,计算机可以更好地学习模拟人类智能。随着包括语音、视觉、手势和多点触控等在内的自然用户界面越来越普及,计算系统正在具备与人类相仿的感知能力,其看见、听懂和理解人类用户的能力不断提高。这种计算系统不断增强的感知能力,与大数据以及机器学习领域的进展相结合,已使得目前的计算系统开始能够理解人类用户的意图和语境。“这使得计算机能够真正帮助人类并代表人类去工作”。以往,移动运营商和互联网服务运营商等拥有着大量的用户行为习惯的各种数据,在IT产业链中具有举足轻重的地位。而在大数据时代,移动运营商如果不能挖掘出数据的价值,可能彻彻底底被管道化和边缘化。运营商和更懂用户需求的第三方开发者互利共赢的模式,已取得一定共识。
2.云计算与大数据的关系
本质上讲,云计算与大数据是静与动的关系;如果结合实际的应用,前者强调的是计算能力,或者看重的存储能力;但是这样说,并不意味着两个概念就如此泾渭分明。大数据需要处理大数据的能力(数据获取、清洁、转换、统计等能力),其实就是强大的计算能力;另一方面,云计算的动也是相对而言,比如基础设施即服务中的存储设备提供的主要是数据存储能力,所以可谓是动中有静。如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。云计算能盛行的原因在于互联网领域应用系统的构建:客户群体是不确定的,系统规模不确定、系统投资不固定、业务应用有很清晰的并行分割特征、数据仓库系统的构建、数据仓库规模可估算、数据仓库的系统投资与业务分析的价值和回报相关、商业智能应用属于整体应用、Saas模式构建数据仓库系统。大数据管理,分布式文件系统;同时SQL支持,以HiveHADOOP为代表的SQL界面支持,在大数据技术上用云计算构建下一代数据仓库成为热门话题。
云计算环境中基本计算单元的分化。企业云计算平台上虽然有多个并行计算的CPU,但并没有创造出具有超强数据处理能力的超级CPU,因此云计算平台需要有并行运算能力的软件系统。同时,当用户的数据全部放在云端时,虽然存储容量可以很方便地扩充,但面对大量用户同时发起的海量数据处理请求,简单的数据处理逻辑已经无法满足需要。国内有相当多的电商企业使用过小型机和Oracle,并请了Oracle的专家不停优化应用系统,但由于数据量激增,业务开始受到严重影响,最典型的例子无疑是京东商城所发生的大规模访问请求宕机事件,因此用户开始逐渐放弃Oracle或者MS-SQL,并逐渐转向MySQLX86的分布式架构。
对系统稳定性的需求,在应对大规模访问的时候有一些系统稳定性的追求,来自很多方面,来自网络稳定性、数据库稳定性。对系统而言,需要把握一个大原则,需要消除任何单点故障。不仅是网络上单点故障,还有来自呼叫中心里的单点故障,只要有单点故障一定要消除掉。因为对于电商行业而言,每一秒都是钱,电子商务业务如果宕机一个小时,损失多少是可以算出来的,电商行业需要非常全面的技术系统监控报警系统。有时候会发现如果通过技术系统的监控去推导出发生的问题已经来不及了。
3.发展趋势:大数据逐步“云”化
纵观历史,过去的数据中心无论应用层次还是规模大小,都仅仅是停留在过去有限的基础架构之上,采用的是传统精简指令集计算机和传统大型机,各个基础架构之间都相互孤立,没有形成一个统一的有机整体。在过去的数据中心里面,各种资源都没有得到有效充分地利用。而且传统数据中心资源配置和部署大多采用人工方式,没有相应的平台支持,使大量人力资源耗费在繁重的重复性工作上,缺少自助服务和自动部署能力,既耗费时间和成本,又严重影响工作效率。而当今越来越流行的云计算、虚拟化和云存储等新IT模式的出现,又再一次说明了过去那种孤立、缺乏有机整合的数据中心资源并没有得到有效利用,并不能满足当前多样、高效和海量的业务应用需求。在云计算时代背景下,数据中心需要向集中大规模共享平台推进,并且,数据中心要能实现实时动态扩容,实现自助和自动部署服务。
正所谓“梅虽逊雪三分白,雪却输梅一段香”,相比之下,私有云会比公有云在数据安全性方面有更好的表现,但公有云却会比私有云有更“强壮的云架构”。因此,从数据中心演进的角度来看,讨论何种“云”并无实质意义,而重点应该重视的是数据中心在未來发展中所扮演的角色和出现的历史性变革。
参考文献
[1]张倩.”大数据”技术再高校档案信息服务中的应用探索[J].电子技术与软件工程.2016(21):27-31
[2]李洪民.大数据在高校的应用与探索[J].海外文摘,2018⑶:55-57
作者简介:李洪民(1964.02)男、汉,山东滨州、滨州医学院网络信息中心,高级实验师、本科、研究方向:计算机网络与信息技术
关键词:云计算;大数据;趋势
1.云计算与大数据
云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用,云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。
30年前,存储也就是约1000GB数据的成本大约是16亿美元,如今存储到云上只需不到100美元。但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。目前,云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和商业模式。个人用户将文档、照片、视频、游戏存档记录上传至“云”中永久保存,企业客户根据自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT资源与服务,这些都已不是新鲜事。可以说,云是一棵挂满了大数据的苹果树。
大数据的出现,引发全球范技术与商业变革。在技术上以往更多是依靠模型的方法,现在可以借用规模庞大的数据,用基于统计的方法,有望使语音识别、机器翻译这些技术领域在大数据时代取得新的进展。在搜索引擎和在线广告中发挥重要作用的机器学习,被认为是大数据发挥真正价值的领域在海量的数据中统计分析出人的行为、习惯等方式,计算机可以更好地学习模拟人类智能。随着包括语音、视觉、手势和多点触控等在内的自然用户界面越来越普及,计算系统正在具备与人类相仿的感知能力,其看见、听懂和理解人类用户的能力不断提高。这种计算系统不断增强的感知能力,与大数据以及机器学习领域的进展相结合,已使得目前的计算系统开始能够理解人类用户的意图和语境。“这使得计算机能够真正帮助人类并代表人类去工作”。以往,移动运营商和互联网服务运营商等拥有着大量的用户行为习惯的各种数据,在IT产业链中具有举足轻重的地位。而在大数据时代,移动运营商如果不能挖掘出数据的价值,可能彻彻底底被管道化和边缘化。运营商和更懂用户需求的第三方开发者互利共赢的模式,已取得一定共识。
2.云计算与大数据的关系
本质上讲,云计算与大数据是静与动的关系;如果结合实际的应用,前者强调的是计算能力,或者看重的存储能力;但是这样说,并不意味着两个概念就如此泾渭分明。大数据需要处理大数据的能力(数据获取、清洁、转换、统计等能力),其实就是强大的计算能力;另一方面,云计算的动也是相对而言,比如基础设施即服务中的存储设备提供的主要是数据存储能力,所以可谓是动中有静。如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。云计算能盛行的原因在于互联网领域应用系统的构建:客户群体是不确定的,系统规模不确定、系统投资不固定、业务应用有很清晰的并行分割特征、数据仓库系统的构建、数据仓库规模可估算、数据仓库的系统投资与业务分析的价值和回报相关、商业智能应用属于整体应用、Saas模式构建数据仓库系统。大数据管理,分布式文件系统;同时SQL支持,以HiveHADOOP为代表的SQL界面支持,在大数据技术上用云计算构建下一代数据仓库成为热门话题。
云计算环境中基本计算单元的分化。企业云计算平台上虽然有多个并行计算的CPU,但并没有创造出具有超强数据处理能力的超级CPU,因此云计算平台需要有并行运算能力的软件系统。同时,当用户的数据全部放在云端时,虽然存储容量可以很方便地扩充,但面对大量用户同时发起的海量数据处理请求,简单的数据处理逻辑已经无法满足需要。国内有相当多的电商企业使用过小型机和Oracle,并请了Oracle的专家不停优化应用系统,但由于数据量激增,业务开始受到严重影响,最典型的例子无疑是京东商城所发生的大规模访问请求宕机事件,因此用户开始逐渐放弃Oracle或者MS-SQL,并逐渐转向MySQLX86的分布式架构。
对系统稳定性的需求,在应对大规模访问的时候有一些系统稳定性的追求,来自很多方面,来自网络稳定性、数据库稳定性。对系统而言,需要把握一个大原则,需要消除任何单点故障。不仅是网络上单点故障,还有来自呼叫中心里的单点故障,只要有单点故障一定要消除掉。因为对于电商行业而言,每一秒都是钱,电子商务业务如果宕机一个小时,损失多少是可以算出来的,电商行业需要非常全面的技术系统监控报警系统。有时候会发现如果通过技术系统的监控去推导出发生的问题已经来不及了。
3.发展趋势:大数据逐步“云”化
纵观历史,过去的数据中心无论应用层次还是规模大小,都仅仅是停留在过去有限的基础架构之上,采用的是传统精简指令集计算机和传统大型机,各个基础架构之间都相互孤立,没有形成一个统一的有机整体。在过去的数据中心里面,各种资源都没有得到有效充分地利用。而且传统数据中心资源配置和部署大多采用人工方式,没有相应的平台支持,使大量人力资源耗费在繁重的重复性工作上,缺少自助服务和自动部署能力,既耗费时间和成本,又严重影响工作效率。而当今越来越流行的云计算、虚拟化和云存储等新IT模式的出现,又再一次说明了过去那种孤立、缺乏有机整合的数据中心资源并没有得到有效利用,并不能满足当前多样、高效和海量的业务应用需求。在云计算时代背景下,数据中心需要向集中大规模共享平台推进,并且,数据中心要能实现实时动态扩容,实现自助和自动部署服务。
正所谓“梅虽逊雪三分白,雪却输梅一段香”,相比之下,私有云会比公有云在数据安全性方面有更好的表现,但公有云却会比私有云有更“强壮的云架构”。因此,从数据中心演进的角度来看,讨论何种“云”并无实质意义,而重点应该重视的是数据中心在未來发展中所扮演的角色和出现的历史性变革。
参考文献
[1]张倩.”大数据”技术再高校档案信息服务中的应用探索[J].电子技术与软件工程.2016(21):27-31
[2]李洪民.大数据在高校的应用与探索[J].海外文摘,2018⑶:55-57
作者简介:李洪民(1964.02)男、汉,山东滨州、滨州医学院网络信息中心,高级实验师、本科、研究方向:计算机网络与信息技术