论文部分内容阅读
摘要:当今社会已经进入了大数据时代,随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等。本文主要从大数据分析的方法理论入手,对现今各行各业即将运用的大数据处理方法进行研究,总结出一种较适用的大数据分析方法及其应用,以供行业和企业在未来的业务活动中作参考。
关键词:预测分析;大数据处理;大数据应用;数据挖掘
1引言
时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息[1]。(2)“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法的数据[2]。(3)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2 大数据处理方法
我们认为大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据分析中最重要的一环同样也是价值链的最后,实现了大数据的价值,也是大数据应用的基础,其目的在于提取有用的信息,在根据现有的理论上对未来进行合理预判,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。
传统数据分析是指用适当的统计方法对收集来的大量数据进行分析,把一大批杂乱无章的数据中的信息提取出来,找出研究对象的内在规律,以求最大化地开发数据资料的信息,发挥数据的作用。从小的方面说数据分析对于企业了解顾客需求、把握未来市场动态走势都有一定的指导作用。从大的方面来说数据分析对于国家制定发展计划,预判政局形式均有一定的可信度。
以下介绍大数据分析中所用的传统分析方法:
(1)聚类分析
聚类分析是划分对象的统计学方法,指把具有某种相似特征的物体或者事物归为一類。聚类分析的目的在于辨别在某些性质上相似的事物,并按这些特性将样本划分成若干类,使同类事物有着相似点很多,不同类的事物则有高度的异质性。这样在研究事物时更加容易从中挖掘有用信息,便于研究。
(2)因子分析
因子分析的基本概念就是用少数几个因子去描述许多因素之间的联系,类似于数学中的替换概念。将比较密切的几个变量归在一个因子中,因子是不可观测的,不是具体的变量,用较少的几个因子反映原始数据的大部分信息。
(3)相关分析
相关分析法是测定事物之间相关关系的规律性并据以进行预测和控制的分析方法。社会经济形象之间存在着大量的相互联系、相互依赖、相互制约的数量关系。这种关系可分为两种类型。一类是函数关系,它反映着现象之间严格的依存关系,也称确定性的依存关系。在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之对应。另一类为相关关系,在这种关系中,变量之间存在着不确定、不严格的依存关系,对于变量的某个数值,可以有另一变量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动。
(4)回归分析
回归分析是研究一个变量与其他若干变量之间相关关系的一种数学工具,它是在一组实验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系。通过回归分析,可以把变量间的复杂的、不确定的关系变得简单化、有规律化。
(5)A/B测试
也称为水桶测试,通过对比测试群体,确定哪种方案能提高目标变量的技术。大数据可以使大量的测试被执行和分析,保证这个群体有足够的规模来检测控制组和治疗组之间有意义的区别.
(6)数据挖掘。更为深入的数据分析就需要利用到数据挖掘技术,实现一些高级别的数据分析需求。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘主要用于完成以下6种不同任务,同时也对应着不同的分析方法:分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化。
3 大数据分析在行业活动中的应用
非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电商,挑选几个具有代表性的案例与大家分享。
3.1 电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
3.2 地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体数据,进行网络口碑监测,负面情绪被及时地发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
3.3 证券行业
某证券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点,今日舆论,展示抓取的所有期货产品相关信息的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响,通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。
3.4 金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估,这些数据指数可以有效协助商业银行进行供应商风险评估。
4 结语
(1)巨大风险
大数据在给我提供便利的同时也伴随着巨大风险。它使得目前用以保护隐私的法律手段和核心技术失去了效果。过去个人身份信息包括名字、身份证号、税收记录等,构成简单。而今天,即使是最无害的数据,只要被数据收集器采集到足够的数量,也会暴露出个人身份信息。匿名或者单纯的隐藏已不再适用。不仅如此,现在要是对某人进行监督,必定会侵犯到较之以往范围更广的个人隐私内容。
(2)未来展望
应对大数据我们没有万无一失的方法,必须建立规范自身的新准则,我们可以改变一系列的惯例来帮助社会应对这种冲击。我们需要把进行隐私保护的责任从个人转移到数据使用者的身上,也就是说,数据使用者应该以负责人的态度使用数据。大数据并不是一个充满算法的机器和冰冷世界,人类的作用依然无法被替代。大数据为我们提供的不是最终答案,只是参考答案,帮助也是暂时的,而更好的方法、答案还在不久的未来。
参考文献
[1] 王克迪. 数据、大数据及其本质[N]. 学习时报,2015-09-14.
[2] 王惠.大数据时代下数据分析理念研究[J].中国市场,2015(22):74.
[3] 高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015(3):1-12.
关键词:预测分析;大数据处理;大数据应用;数据挖掘
1引言
时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息[1]。(2)“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法的数据[2]。(3)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2 大数据处理方法
我们认为大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据分析中最重要的一环同样也是价值链的最后,实现了大数据的价值,也是大数据应用的基础,其目的在于提取有用的信息,在根据现有的理论上对未来进行合理预判,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。
传统数据分析是指用适当的统计方法对收集来的大量数据进行分析,把一大批杂乱无章的数据中的信息提取出来,找出研究对象的内在规律,以求最大化地开发数据资料的信息,发挥数据的作用。从小的方面说数据分析对于企业了解顾客需求、把握未来市场动态走势都有一定的指导作用。从大的方面来说数据分析对于国家制定发展计划,预判政局形式均有一定的可信度。
以下介绍大数据分析中所用的传统分析方法:
(1)聚类分析
聚类分析是划分对象的统计学方法,指把具有某种相似特征的物体或者事物归为一類。聚类分析的目的在于辨别在某些性质上相似的事物,并按这些特性将样本划分成若干类,使同类事物有着相似点很多,不同类的事物则有高度的异质性。这样在研究事物时更加容易从中挖掘有用信息,便于研究。
(2)因子分析
因子分析的基本概念就是用少数几个因子去描述许多因素之间的联系,类似于数学中的替换概念。将比较密切的几个变量归在一个因子中,因子是不可观测的,不是具体的变量,用较少的几个因子反映原始数据的大部分信息。
(3)相关分析
相关分析法是测定事物之间相关关系的规律性并据以进行预测和控制的分析方法。社会经济形象之间存在着大量的相互联系、相互依赖、相互制约的数量关系。这种关系可分为两种类型。一类是函数关系,它反映着现象之间严格的依存关系,也称确定性的依存关系。在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之对应。另一类为相关关系,在这种关系中,变量之间存在着不确定、不严格的依存关系,对于变量的某个数值,可以有另一变量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动。
(4)回归分析
回归分析是研究一个变量与其他若干变量之间相关关系的一种数学工具,它是在一组实验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系。通过回归分析,可以把变量间的复杂的、不确定的关系变得简单化、有规律化。
(5)A/B测试
也称为水桶测试,通过对比测试群体,确定哪种方案能提高目标变量的技术。大数据可以使大量的测试被执行和分析,保证这个群体有足够的规模来检测控制组和治疗组之间有意义的区别.
(6)数据挖掘。更为深入的数据分析就需要利用到数据挖掘技术,实现一些高级别的数据分析需求。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘主要用于完成以下6种不同任务,同时也对应着不同的分析方法:分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化。
3 大数据分析在行业活动中的应用
非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电商,挑选几个具有代表性的案例与大家分享。
3.1 电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
3.2 地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体数据,进行网络口碑监测,负面情绪被及时地发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
3.3 证券行业
某证券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点,今日舆论,展示抓取的所有期货产品相关信息的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响,通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。
3.4 金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估,这些数据指数可以有效协助商业银行进行供应商风险评估。
4 结语
(1)巨大风险
大数据在给我提供便利的同时也伴随着巨大风险。它使得目前用以保护隐私的法律手段和核心技术失去了效果。过去个人身份信息包括名字、身份证号、税收记录等,构成简单。而今天,即使是最无害的数据,只要被数据收集器采集到足够的数量,也会暴露出个人身份信息。匿名或者单纯的隐藏已不再适用。不仅如此,现在要是对某人进行监督,必定会侵犯到较之以往范围更广的个人隐私内容。
(2)未来展望
应对大数据我们没有万无一失的方法,必须建立规范自身的新准则,我们可以改变一系列的惯例来帮助社会应对这种冲击。我们需要把进行隐私保护的责任从个人转移到数据使用者的身上,也就是说,数据使用者应该以负责人的态度使用数据。大数据并不是一个充满算法的机器和冰冷世界,人类的作用依然无法被替代。大数据为我们提供的不是最终答案,只是参考答案,帮助也是暂时的,而更好的方法、答案还在不久的未来。
参考文献
[1] 王克迪. 数据、大数据及其本质[N]. 学习时报,2015-09-14.
[2] 王惠.大数据时代下数据分析理念研究[J].中国市场,2015(22):74.
[3] 高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015(3):1-12.