论文部分内容阅读
摘 要:随着大数据概念的提出,云计算技术也快速发展。时至今日,大数据和云计算已经成为互联网时代的潮流,许多学者对大数据进行研究,提出了许多可行有效的数据分析方法,使人们从巨量数据中挖掘出有价值的数据,提高数据的利用率,这些分析方法已经得到实际运用,并且带来很好的经济效益。
关键词:大数据;云计算;数据分析;数据挖掘
1、引言
近几年,随着互联网、云计算、移动互联网等新技术的迅速发展,人类之间的活动和交往日益复杂,数据呈现快速增长趋势,于是便迎来了大数据时代。
人类的社会活动产生了巨量的数据,这些数据正处在疯狂成长的阶段,引起了商业界、科学界和政府机构的广泛关注。如何处理这些巨量数据和如何在海量数据中挖掘有价值的数据是所需要解决的主要问题。
2、大数据的基本概念
2.1大数据的定义
人们所理解的数据大多数是存储在数据库中,可以用来读取、计算和操作的结构化数据,大数据就是海量的数据。大数据指的其实就是“海量数据+复杂数据类型”及非结构化数据,其核心在于数据的挖掘和应用产生的多方位价值[1]。大数据规模大,数据结构复杂度高,数据关联度高等特点。
2.2大数据的特点
大数据具有以下4个主要特征:
2.2.1巨量(volumes)
传统人们使用的数据都以KB、MB、GB和TB为单位来衡量,在现在数据爆炸的时代,TB都已经无法衡量人们所掌握的数据容量,而是用PB、EB、或ZB作为大数据的计量单位。在互联网时代,数据疯狂增长,有关数据表明,过去3年人类的信息数据总量比以往4万年的数据量还要多。
2.2.2高速(Velocity)
大数据与传统的数据挖掘技术有着本质的区别,当面临各种信息时,如何把握数据的时效性,从各种数据类型中快速获取高价值的信息,是大数据时代对数据处理提出的基本要求。
2.2.3多样(Variety)
互联网时代,大数据不仅体现在量的增长,而且数据类型变得十分复杂。它不仅包括可以存储在数据库中的结构化数据;也包括非结构化数据,如文本、视频、音频和图片等,而且非结构化数据占据很大的比重。统计显示,全世界结构化数据的增长率大约是32%,而非结构化数据增长率则是63%。非结构化数据往往在大数据中具有更高的价值。
2.2.4高值(Value)
对于海量的数据,人们需要从中提取出有价值的数据为己所用,数据挖掘技术广泛应用于商业,对数据价值进行再挖掘。巨量数据中有价值的数据是极小的一部分,大数据的价值密度很低,然而只要合理的利用数据,并对其进行正确、准确的分析,将会带来很高的价值回报。
3、大数据面临的挑战
由于大数据具有数据量大,要求处理速度快,数据种类多,价值密度低等特点,使得大数据技术面临严重的挑战,对于大数据的处理和计算面临的许多问题都依然没有得到本质的解决。
3.1数据传输问题
互联网时代,人们利用网络传输数据,面对海量数据,以现有的网络传输技术,需要花费大量的时间和带宽。大数据时代的网络无法满足人们数据传输的要求,不但花费大量的时间,而且占用了许多宝贵的网络资源。如何快速有效的传输大量数据仍是难以解决的问题。
3.2数据存储问题
大数据发展面临的问题是来自不同地方、标准各异、数据量巨大、结构形式种类多、实时性等多样化要求的数据信息。故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。虽然使用了云服务技术,但是仍然无法满足数据容积的增长速度,人类活动产生的大量数据将面临着需要大量存储空间的严峻问题。
3.3数据计算问题
大数据时代产生的海量数据不仅包括可以存储在数据库中的结构化数据,而且还包括占大比例的非结构化数据。要从海量数据中挖掘出有价值的信息,需要一些有效的计算方法,从大量非结构化数据中找出有价值的信息更加复杂,如果没有高效的计算方法,不仅需要消耗大量的时间和计算机资源,而且还无法精确的找到有效的信息。
3.4数据分析问题
现在的世界是数据的世界,现在的科学是数据科学。如何利用好各种数据,从海量数据中提取有用的信息,需要数据建模分析技术来解决这些问题。尽管科学家提出了许多行之有效数据分析方法,但是仍然无法达到理想的目标。
3.5数据安全與用户隐私保护问题
大数据下,人们面临的威胁不仅包括个人隐私泄漏,更可怕的是基于大数据对用户状态和行为的预测;受攻击或刻意制造的大数据会导致错误的分析结论;大数据层层传播,误差积累也会导致数据失真。中国计算机学会(CCF)大数据专家委员会关于2014年大数据发展趋势预测的报告指出用户隐私会越来越多地融入各种大数据中,大数据更容易成为网络攻击目标,大数据分析技术更容易被黑客利用,大数据引起了更多不易被追踪和防范的犯罪手段[2]。
4、大数据的关键技术
4.1数据挖掘
大数据的核心是在于数据价值的挖掘和利用。数据挖掘通常是指从大量的数据中通过算法搜索隐藏在其中信息的过程。数据挖掘技术主要包括关联分析、序列模式、分类、聚类、异常检测,可视化等。数据挖掘技术在各行各业已得到广泛应用。例如,在旅游大数据应用中可以采用关联分析对旅游数据进行搜索,并从中找出出现概率较高的模式,或者通过数据的聚类与分类,分析旅游数据的相似性,将相似的数据存放在一起,为决策者提供决策支持[3]。
4.2云计算
云计算就是以虚拟化技术为基础,以网络为载体,整合大规模可扩展的计算、存储、数据、应用等分布式计算资源进行协同工作的超级计算服务模式。云计算具有超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务和低成本性等特点。因此,云计算为海量数据构建了坚实的基础[4]。云计算与大数据结合催生了云机器人,云机器人是目前模仿人类相似度最高的机器人。
4.3机器学习
机器学习是一门多领域交叉学科,涉及多门学科,是人工智能的核心。研究计算机怎样模拟或实现人类的学习行为,获取新的知识或技能,重新组织已有的知识结构并不断改善自身的性能,是人工智能的核心,是使计算机具有智能的根本途径。自然语言处理是机器学习的一个例子。目前机器学习与大数据结合用来进行自动驾驶汽车研究和抑郁诊疗的可计算方法研究已经取得一些成就。
4.4神经网络
受生物神经网络结构和运作的启发,模拟动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。大数据与神经网络结合,可以用来进行数据分析和预测,应用实例包括识别高价值客户离开特定公司的风险,以及识别欺诈性的保险理赔行为等。
5、结束语
大数据时代到来给人们的世界带来巨大的变化,使人类科学向第四范式转变:实验科学,理论科学,计算科学和数据科学。虽然大数据研究取得了很多成果,但是现在大数据研究还面临诸多技术挑战。
大数据时代已经来临,全球都在这一新领域展开了激烈的竞争,我国也要与时俱进,加快步伐,适应这一新时代的到来。
(作者单位:重庆交通大学信息科学与工程学院)
参考文献:
[1] 孔德智等,大数据浅析[J].电子产品可靠性与环境试蹌,2013,86
[2] 黎林峰.,2014年大数据发展趋势预测[J].中国建设信息,2014(3):18-19.
[3] 郭鑫,旅游大数据与挖掘分析研究[J].2013,3215
[4] 王妍等,大数据及相关技术解读[J].特别关注,2014,20
[5] 严霄凤等,大数据研究[J].计算机技术与发展,2013,169
关键词:大数据;云计算;数据分析;数据挖掘
1、引言
近几年,随着互联网、云计算、移动互联网等新技术的迅速发展,人类之间的活动和交往日益复杂,数据呈现快速增长趋势,于是便迎来了大数据时代。
人类的社会活动产生了巨量的数据,这些数据正处在疯狂成长的阶段,引起了商业界、科学界和政府机构的广泛关注。如何处理这些巨量数据和如何在海量数据中挖掘有价值的数据是所需要解决的主要问题。
2、大数据的基本概念
2.1大数据的定义
人们所理解的数据大多数是存储在数据库中,可以用来读取、计算和操作的结构化数据,大数据就是海量的数据。大数据指的其实就是“海量数据+复杂数据类型”及非结构化数据,其核心在于数据的挖掘和应用产生的多方位价值[1]。大数据规模大,数据结构复杂度高,数据关联度高等特点。
2.2大数据的特点
大数据具有以下4个主要特征:
2.2.1巨量(volumes)
传统人们使用的数据都以KB、MB、GB和TB为单位来衡量,在现在数据爆炸的时代,TB都已经无法衡量人们所掌握的数据容量,而是用PB、EB、或ZB作为大数据的计量单位。在互联网时代,数据疯狂增长,有关数据表明,过去3年人类的信息数据总量比以往4万年的数据量还要多。
2.2.2高速(Velocity)
大数据与传统的数据挖掘技术有着本质的区别,当面临各种信息时,如何把握数据的时效性,从各种数据类型中快速获取高价值的信息,是大数据时代对数据处理提出的基本要求。
2.2.3多样(Variety)
互联网时代,大数据不仅体现在量的增长,而且数据类型变得十分复杂。它不仅包括可以存储在数据库中的结构化数据;也包括非结构化数据,如文本、视频、音频和图片等,而且非结构化数据占据很大的比重。统计显示,全世界结构化数据的增长率大约是32%,而非结构化数据增长率则是63%。非结构化数据往往在大数据中具有更高的价值。
2.2.4高值(Value)
对于海量的数据,人们需要从中提取出有价值的数据为己所用,数据挖掘技术广泛应用于商业,对数据价值进行再挖掘。巨量数据中有价值的数据是极小的一部分,大数据的价值密度很低,然而只要合理的利用数据,并对其进行正确、准确的分析,将会带来很高的价值回报。
3、大数据面临的挑战
由于大数据具有数据量大,要求处理速度快,数据种类多,价值密度低等特点,使得大数据技术面临严重的挑战,对于大数据的处理和计算面临的许多问题都依然没有得到本质的解决。
3.1数据传输问题
互联网时代,人们利用网络传输数据,面对海量数据,以现有的网络传输技术,需要花费大量的时间和带宽。大数据时代的网络无法满足人们数据传输的要求,不但花费大量的时间,而且占用了许多宝贵的网络资源。如何快速有效的传输大量数据仍是难以解决的问题。
3.2数据存储问题
大数据发展面临的问题是来自不同地方、标准各异、数据量巨大、结构形式种类多、实时性等多样化要求的数据信息。故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。虽然使用了云服务技术,但是仍然无法满足数据容积的增长速度,人类活动产生的大量数据将面临着需要大量存储空间的严峻问题。
3.3数据计算问题
大数据时代产生的海量数据不仅包括可以存储在数据库中的结构化数据,而且还包括占大比例的非结构化数据。要从海量数据中挖掘出有价值的信息,需要一些有效的计算方法,从大量非结构化数据中找出有价值的信息更加复杂,如果没有高效的计算方法,不仅需要消耗大量的时间和计算机资源,而且还无法精确的找到有效的信息。
3.4数据分析问题
现在的世界是数据的世界,现在的科学是数据科学。如何利用好各种数据,从海量数据中提取有用的信息,需要数据建模分析技术来解决这些问题。尽管科学家提出了许多行之有效数据分析方法,但是仍然无法达到理想的目标。
3.5数据安全與用户隐私保护问题
大数据下,人们面临的威胁不仅包括个人隐私泄漏,更可怕的是基于大数据对用户状态和行为的预测;受攻击或刻意制造的大数据会导致错误的分析结论;大数据层层传播,误差积累也会导致数据失真。中国计算机学会(CCF)大数据专家委员会关于2014年大数据发展趋势预测的报告指出用户隐私会越来越多地融入各种大数据中,大数据更容易成为网络攻击目标,大数据分析技术更容易被黑客利用,大数据引起了更多不易被追踪和防范的犯罪手段[2]。
4、大数据的关键技术
4.1数据挖掘
大数据的核心是在于数据价值的挖掘和利用。数据挖掘通常是指从大量的数据中通过算法搜索隐藏在其中信息的过程。数据挖掘技术主要包括关联分析、序列模式、分类、聚类、异常检测,可视化等。数据挖掘技术在各行各业已得到广泛应用。例如,在旅游大数据应用中可以采用关联分析对旅游数据进行搜索,并从中找出出现概率较高的模式,或者通过数据的聚类与分类,分析旅游数据的相似性,将相似的数据存放在一起,为决策者提供决策支持[3]。
4.2云计算
云计算就是以虚拟化技术为基础,以网络为载体,整合大规模可扩展的计算、存储、数据、应用等分布式计算资源进行协同工作的超级计算服务模式。云计算具有超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务和低成本性等特点。因此,云计算为海量数据构建了坚实的基础[4]。云计算与大数据结合催生了云机器人,云机器人是目前模仿人类相似度最高的机器人。
4.3机器学习
机器学习是一门多领域交叉学科,涉及多门学科,是人工智能的核心。研究计算机怎样模拟或实现人类的学习行为,获取新的知识或技能,重新组织已有的知识结构并不断改善自身的性能,是人工智能的核心,是使计算机具有智能的根本途径。自然语言处理是机器学习的一个例子。目前机器学习与大数据结合用来进行自动驾驶汽车研究和抑郁诊疗的可计算方法研究已经取得一些成就。
4.4神经网络
受生物神经网络结构和运作的启发,模拟动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。大数据与神经网络结合,可以用来进行数据分析和预测,应用实例包括识别高价值客户离开特定公司的风险,以及识别欺诈性的保险理赔行为等。
5、结束语
大数据时代到来给人们的世界带来巨大的变化,使人类科学向第四范式转变:实验科学,理论科学,计算科学和数据科学。虽然大数据研究取得了很多成果,但是现在大数据研究还面临诸多技术挑战。
大数据时代已经来临,全球都在这一新领域展开了激烈的竞争,我国也要与时俱进,加快步伐,适应这一新时代的到来。
(作者单位:重庆交通大学信息科学与工程学院)
参考文献:
[1] 孔德智等,大数据浅析[J].电子产品可靠性与环境试蹌,2013,86
[2] 黎林峰.,2014年大数据发展趋势预测[J].中国建设信息,2014(3):18-19.
[3] 郭鑫,旅游大数据与挖掘分析研究[J].2013,3215
[4] 王妍等,大数据及相关技术解读[J].特别关注,2014,20
[5] 严霄凤等,大数据研究[J].计算机技术与发展,2013,169