论文部分内容阅读
大数据应用时有三个基本的维度,第一数据的采集与存储,第二数据的组织与管理,第三数据的分析与呈现。
从搜索引擎、社交网络到智能移动,全球互联网上的信息总量正以每年30%-50%的增速不断爆涨,每天淘宝上数十亿条店铺、商品浏览纪录及上亿的成交、收藏纪录及3000多万条传感器咨询等等。市场研究机构IDC的研究结果显示,2011年全球所产生的数据总量就已达1.8ZB,如果把这些数据刻录到CD碟片中,这些碟片可环绕地球30圈。 预计到2020年,这一数字将会呈现13倍的增长。
但光拥有数据是什么问题都解决不了的,必须要有一种对数据应用的视角才能创造出对数据的使用。对于一些数据挖掘的新手来说,拿到数据越多,他就死得越惨。因为他没有在行业里待过几年,不知道该从什么角度去挖掘。
在传统零售业有一个著名的例子,超市可以根据消费者的消费习惯分析出一个结论,啤酒应该和尿布摆在一起。没有进行正确的归类,看到的数据将涉及到啤酒和尿布的各种品牌。问题随之而来,是就啤酒和尿布这两个品类进行分析,还是根据百威和帮宝适抑或是其他品牌进行分析呢?没有经验的分析师恐怕就要晕头转向了。
做大数据需要拥有良好视角,第一件事就是建立你的切片维度,如:浏览行为、交易行为、支付行为、沟通行为、社交行为、反馈行为以及必要的各类技术指标,一个应用系统往往可能在多个尺度同时反应数据。
我们在做大数据应用时有三个基本的维度,第一数据的采集与存储,第二数据的组织与管理,第三数据的分析与呈现。
值得注意的是,数据的供应方和使用方关注的焦点往往不一致,企业会表现出不同的数据需求,比如为了提高硬件使用率,需要分析日志数据;为了提高人员系统效率,需要分析工作流数据;为了提升客户满意度,需要cDR数据;为了让产品达到更好的市场表现,需要消费者数据……
例如:在电子商务行业中,有一项很不起眼,但是业内人士非常关注的数据,就是配送地址。物流系统需要识别一项因素:包裹的配送地址到哪一个配送站是最近的。原先,这个地址恰好是在一个合适的配送站A覆盖范围之内,但城市道路交通的一些变化,实际从送货的效率来讲,反而是B配送站更方便到达。当系统能够把包裹地址跟配送站运转之间进行匹配时,数据挖掘的价值是巨大的。
业内普遍认为,如果可以实现,整个物流体系的效率是现在的4倍。
也就是说物流配送本来能更便宜,单个运输车多走了10分钟可能没什么,但是如果有5%的车都多走了10分钟,经济消耗就是巨大的。这就需要非常庞大的数据库,能够把包裹目标地很好地网络化。
现在众多电子商务平台、点评网站及社交网络等消费者集中地,纷纷开放数据接口,全网数据分析及应用也成为可能。目前,电子商务企业客户已越来越倾向于精细化运营,通过数据指导行动。
前段时间,我们去安徽芜湖做“和电商导师一起午餐”,“三只松鼠”章燎原分析电商成功之道时提到了数据分析的重要性。如果是“三只松鼠”老客户,发货时就可以不用一种“封袋夹”,因为,客户那边已经积累了太多封袋夹了,改送其他的礼品,这样顾客每次购买“三只松鼠”产品所收到的包裹都会不一样。
“三只松鼠”采用了精细化的数据分析,把握客户心理,仅用半年时间,就让自己的单月业绩从0到2000万元,在2012年天猫“双十一”单日便完成了800万元的销售业绩,成为天猫坚果类目第一。数据的应用给企业带来的好处显而易见,如果是在一个可视化的数字环境中做出决策和判断呢?正确的概率应该会提升很多。
从搜索引擎、社交网络到智能移动,全球互联网上的信息总量正以每年30%-50%的增速不断爆涨,每天淘宝上数十亿条店铺、商品浏览纪录及上亿的成交、收藏纪录及3000多万条传感器咨询等等。市场研究机构IDC的研究结果显示,2011年全球所产生的数据总量就已达1.8ZB,如果把这些数据刻录到CD碟片中,这些碟片可环绕地球30圈。 预计到2020年,这一数字将会呈现13倍的增长。
但光拥有数据是什么问题都解决不了的,必须要有一种对数据应用的视角才能创造出对数据的使用。对于一些数据挖掘的新手来说,拿到数据越多,他就死得越惨。因为他没有在行业里待过几年,不知道该从什么角度去挖掘。
在传统零售业有一个著名的例子,超市可以根据消费者的消费习惯分析出一个结论,啤酒应该和尿布摆在一起。没有进行正确的归类,看到的数据将涉及到啤酒和尿布的各种品牌。问题随之而来,是就啤酒和尿布这两个品类进行分析,还是根据百威和帮宝适抑或是其他品牌进行分析呢?没有经验的分析师恐怕就要晕头转向了。
做大数据需要拥有良好视角,第一件事就是建立你的切片维度,如:浏览行为、交易行为、支付行为、沟通行为、社交行为、反馈行为以及必要的各类技术指标,一个应用系统往往可能在多个尺度同时反应数据。
我们在做大数据应用时有三个基本的维度,第一数据的采集与存储,第二数据的组织与管理,第三数据的分析与呈现。
值得注意的是,数据的供应方和使用方关注的焦点往往不一致,企业会表现出不同的数据需求,比如为了提高硬件使用率,需要分析日志数据;为了提高人员系统效率,需要分析工作流数据;为了提升客户满意度,需要cDR数据;为了让产品达到更好的市场表现,需要消费者数据……
例如:在电子商务行业中,有一项很不起眼,但是业内人士非常关注的数据,就是配送地址。物流系统需要识别一项因素:包裹的配送地址到哪一个配送站是最近的。原先,这个地址恰好是在一个合适的配送站A覆盖范围之内,但城市道路交通的一些变化,实际从送货的效率来讲,反而是B配送站更方便到达。当系统能够把包裹地址跟配送站运转之间进行匹配时,数据挖掘的价值是巨大的。
业内普遍认为,如果可以实现,整个物流体系的效率是现在的4倍。
也就是说物流配送本来能更便宜,单个运输车多走了10分钟可能没什么,但是如果有5%的车都多走了10分钟,经济消耗就是巨大的。这就需要非常庞大的数据库,能够把包裹目标地很好地网络化。
现在众多电子商务平台、点评网站及社交网络等消费者集中地,纷纷开放数据接口,全网数据分析及应用也成为可能。目前,电子商务企业客户已越来越倾向于精细化运营,通过数据指导行动。
前段时间,我们去安徽芜湖做“和电商导师一起午餐”,“三只松鼠”章燎原分析电商成功之道时提到了数据分析的重要性。如果是“三只松鼠”老客户,发货时就可以不用一种“封袋夹”,因为,客户那边已经积累了太多封袋夹了,改送其他的礼品,这样顾客每次购买“三只松鼠”产品所收到的包裹都会不一样。
“三只松鼠”采用了精细化的数据分析,把握客户心理,仅用半年时间,就让自己的单月业绩从0到2000万元,在2012年天猫“双十一”单日便完成了800万元的销售业绩,成为天猫坚果类目第一。数据的应用给企业带来的好处显而易见,如果是在一个可视化的数字环境中做出决策和判断呢?正确的概率应该会提升很多。