浅谈大数据分析方法及应用

来源 :科学与技术 | 被引量 : 0次 | 上传用户:hxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:当今社会已经进入了大数据时代,随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等。本文主要从大数据分析的方法理论入手,对现今各行各业即将运用的大数据处理方法进行研究,总结出一种较适用的大数据分析方法及其应用,以供行业和企业在未来的业务活动中作参考。
  关键词:预测分析;大数据处理;大数据应用;数据挖掘
  1引言
  时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息[1]。(2)“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法的数据[2]。(3)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
  2 大数据处理方法
  我们认为大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据分析中最重要的一环同样也是价值链的最后,实现了大数据的价值,也是大数据应用的基础,其目的在于提取有用的信息,在根据现有的理论上对未来进行合理预判,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。
  传统数据分析是指用适当的统计方法对收集来的大量数据进行分析,把一大批杂乱无章的数据中的信息提取出来,找出研究对象的内在规律,以求最大化地开发数据资料的信息,发挥数据的作用。从小的方面说数据分析对于企业了解顾客需求、把握未来市场动态走势都有一定的指导作用。从大的方面来说数据分析对于国家制定发展计划,预判政局形式均有一定的可信度。
  以下介绍大数据分析中所用的传统分析方法:
  (1)聚类分析
  聚类分析是划分对象的统计学方法,指把具有某种相似特征的物体或者事物归为一類。聚类分析的目的在于辨别在某些性质上相似的事物,并按这些特性将样本划分成若干类,使同类事物有着相似点很多,不同类的事物则有高度的异质性。这样在研究事物时更加容易从中挖掘有用信息,便于研究。
  (2)因子分析
  因子分析的基本概念就是用少数几个因子去描述许多因素之间的联系,类似于数学中的替换概念。将比较密切的几个变量归在一个因子中,因子是不可观测的,不是具体的变量,用较少的几个因子反映原始数据的大部分信息。
  (3)相关分析
  相关分析法是测定事物之间相关关系的规律性并据以进行预测和控制的分析方法。社会经济形象之间存在着大量的相互联系、相互依赖、相互制约的数量关系。这种关系可分为两种类型。一类是函数关系,它反映着现象之间严格的依存关系,也称确定性的依存关系。在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之对应。另一类为相关关系,在这种关系中,变量之间存在着不确定、不严格的依存关系,对于变量的某个数值,可以有另一变量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动。
  (4)回归分析
  回归分析是研究一个变量与其他若干变量之间相关关系的一种数学工具,它是在一组实验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系。通过回归分析,可以把变量间的复杂的、不确定的关系变得简单化、有规律化。
  (5)A/B测试
  也称为水桶测试,通过对比测试群体,确定哪种方案能提高目标变量的技术。大数据可以使大量的测试被执行和分析,保证这个群体有足够的规模来检测控制组和治疗组之间有意义的区别.
  (6)数据挖掘。更为深入的数据分析就需要利用到数据挖掘技术,实现一些高级别的数据分析需求。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘主要用于完成以下6种不同任务,同时也对应着不同的分析方法:分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化。
  3 大数据分析在行业活动中的应用
  非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电商,挑选几个具有代表性的案例与大家分享。
  3.1 电信行业
  某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
  3.2 地产行业
  某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体数据,进行网络口碑监测,负面情绪被及时地发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
  3.3 证券行业
  某证券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点,今日舆论,展示抓取的所有期货产品相关信息的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响,通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。
  3.4 金融行业
  某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估,这些数据指数可以有效协助商业银行进行供应商风险评估。
  4 结语
  (1)巨大风险
  大数据在给我提供便利的同时也伴随着巨大风险。它使得目前用以保护隐私的法律手段和核心技术失去了效果。过去个人身份信息包括名字、身份证号、税收记录等,构成简单。而今天,即使是最无害的数据,只要被数据收集器采集到足够的数量,也会暴露出个人身份信息。匿名或者单纯的隐藏已不再适用。不仅如此,现在要是对某人进行监督,必定会侵犯到较之以往范围更广的个人隐私内容。
  (2)未来展望
  应对大数据我们没有万无一失的方法,必须建立规范自身的新准则,我们可以改变一系列的惯例来帮助社会应对这种冲击。我们需要把进行隐私保护的责任从个人转移到数据使用者的身上,也就是说,数据使用者应该以负责人的态度使用数据。大数据并不是一个充满算法的机器和冰冷世界,人类的作用依然无法被替代。大数据为我们提供的不是最终答案,只是参考答案,帮助也是暂时的,而更好的方法、答案还在不久的未来。
  参考文献
  [1] 王克迪. 数据、大数据及其本质[N]. 学习时报,2015-09-14.
  [2] 王惠.大数据时代下数据分析理念研究[J].中国市场,2015(22):74.
  [3] 高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015(3):1-12.
其他文献
摘要:改革开放四十年中我国有了非常大的进步与发展,伴随社会的进步,人们的物质文化水平也在不断提高,人们对于生活品质的需求也在发生改变。当前我国互联网的发展进入了全新时期,互联网联通虚拟信息,但人们对于物品之间的关联需求正住进逐渐增加,由此物联网正逐渐成为社会发展趋势。在计算机科学技术的帮助下,物联网的推行指日可待,文章将主要对计算机科学技术对物联网的推动作用进行简单分析研究。  关键词:计算机科学
期刊
摘要:随着经济水平的提高,人们的物质生活水平得到了极大提升,但食品安全问题仍然严重。食品安全违规行为屡禁不止,因食品安全问题导致的人身健康事件频发。为了保证食品安全,生产管理人员要提升食品安全管理水平,完善监管体系,食品安全技术手段要多样化,其中食品检测就必不可少。食品检测是食品安全的基本保障,是保证食品安全的必要手段之一。因此要提高对食品检测的重视,完善食品检测管理体系,提高食品检测技术水平,为
期刊
摘要:海洋环境监测装备技术在海洋观测系统中占有重要地位,随着各种海洋环境监测装备技术的普及应用,其功能作用得到了充分发挥,有效地保护了海洋环境。本文将综述海洋环境监测的发展及其装备技术,并对未来趋势进行了展望。  关键词:海洋环境监测;装备技术;发展  1现如今海洋环境监测发展现状  1.1海洋监测技术和参数发展情况  海洋监测参数是有效开展海洋监测工作的抓手,同时是其监测理论的重要组成,且监测参
期刊
摘要:随着电子政务、企业信息化和电子商务的迅速发展,计算机网络正在融入社会生活的各个方面。计算机网络的广泛应用带来了许多便利,人们对网络的稳定运行提出越来越高的要求。但随之而来的网络故障也带来了很多烦恼,轻则影响用户网络运行质量,重则导致整个网络瘫痪,带来巨大的经济损失。在网络出现故障时要做到及时发现网络故障、准确定位网络故障并且能及时排除故障就显得特别重要。  关键词:企业信息化;网络故障;运行
期刊
摘要:目的:通过在家庭医生式服务视角下南充市居民对互联网时代下精准医疗的知信行调查,分析精准医疗服务事业的发展现状,对发展精准医疗事业提出合理的意见与对策。方法:采用自行设计的问卷,利用随机抽样的原则对南充市居民进行问卷调查,采用SPSS20.0进行数据分析,统计方法包括统计描述、卡方检验。结果:①不同年龄、不同学历的居民对“互联网+”时代下精准医疗政策的了解程度差异具有统计学意义;②用互联网查询
期刊
摘要:在城市化进程的带动下,我国城市天然气管道的数量不断增加,导致管理难度也在提升。本文对燃气地理信息系统的应用与拓展展开深入的研究,主要分析了辅助设计与官网优化、用气预测决策支持、管网评估与管理。进而对智能燃气网提出切实可行的建议,确保燃气企业的可持续发展。  关键词:地理信息系统;燃气;应用与拓展;数据分析  在城市化进程的推动下,城市燃气管道的压力也在急剧提升,在管理过程中,难度越来越大,致
期刊
摘要:近年来,我国经济迅速发展,人们生活水平不断提高,同时也给环境带来了很大的破坏。随着工业的发展,各种生产工艺更加复杂,污染物排放控制难度进一步加大。如何在技术上确保环境保护与工业同步发展,成为我国面临的重大发展课题。人工智能的出现使环境保护实现自动化、智能化成为可能,给污染治理提供了新的解决方案。本文以我国环保的形势和人工智能的发展背景为出发点,对人工智能技术在环保领域的应用展开了深入探讨,以
期刊
摘要:通过应用X射线衍射技术对三肇凹陷扶余油层致密砂岩主要岩性的矿物含量进行了测定,建立了岩性识别标准、脆性指数计算标准和矿物含量交汇图版,形成了致密砂岩储层岩性、脆性和物性录井评价技术。  关键词:录井;XRD;致密储层;评价  当前,致密油、致密气已成为我国非常规油气开发的重点。在致密油储层录井评价方法方面,国内主要利用各种录井资料并与岩心实验、地质及试油等资料紧密结合,在致密砂岩油的评价上,
期刊
摘要:社会经济不断的发展进步,各个行业的用电量也逐渐的增加,在这种发展形势中,为了满足适应社会人民的电力需要,必须要不断地提升电力配网系统中设备和线路的运行效率。本文分析了电力系统中配网运维工作会出现的部分常见类问题,并提出了有效的解决方案。  关键词:电力系统;配网运行;电力问题;设备维护  电力系统在实际的运行工作,针对配网设备进行的维护是重要的工作内容。电力系统中,传统配网的电力技术较为落后
期刊
摘要:随着人们观念的变化,质量不仅是指产品和服务的使用性能,还包括产品或服务满足用户需求的程度,它是一个含有丰富内涵、具有多维因素的综合性概念,那就是说,对统计信息的质量的认识要求从统计信息提供者、生产者和使用者等多个角度来衡量统计信息质量,准确性已不再是衡量统计信息的唯一标准。因为从使用者的角度来说,即使是准确性相当高的统计数据,如果时效性差,或者不为使用者所关心,仍达不到质量的标准。所以,统计
期刊