论文部分内容阅读
据Gartner研究表明,每天我们要产生2.5QB的数据,而在目前全世界的所有的数据中,90%的数据是近2年内产生的[1]。这些数据来之与各个不同的地方,例如传感器收集到的天气的数据[2],在社交媒体网站上的帖子[3],数码相片和录像,购物产生的交易数据[4],甚至手机GPS的信号产生的地理数据[5]。那么这些数据就是所谓的大数据。随着全球的企业,政府组织开始认识到大数据的重要性,由机器传感器或者移动设备产生的数据以一个巨大的比例膨胀。有关机构预测在接下来的五年当中,这样的数据会增长超过650%,而这些数据大多都是机器和传感器产生的非结构化的数据。Gartner预测到了2015年,由于业务分析的需要,70%的投资会花在对企业IT信息架构的扩展和标准化,包括对服务器,存储架构,应用软件及服务的需求上面。如今大数据的影响力已经从企业,医疗扩散到了家庭宽带的设置和链接设备上。很快的成为了行业领先的分析数据的工具,比之前的工具更加便捷,而且节约成本。随着近几年来,互联网服务的飞速发展,国内的互联网三大巨头,百度,腾讯,阿里从好几年前就开始引入了大数据进行互联网业务决策。本文在这样的情况下,主要研究几方面的内容1.对大数据的现状和定义进行重新分析,深入了解何为大数据以及如今行业和市场对大数据的理解,再分析了大数据的多个研究方向,更好的了解大数据本身。2.对大数据普及的现状进行分析,阐述了如何对大数据的庞大数据集进行瘦身以及展望大数据市场未来发展的情况。3.从本人工作所涉及到的电子商务大数据预测的情况出发,对基于时间戳的网页点击数据进行预处理和分析,从而可以对业务进行更准确的预测。4.从目前流行的互联网在线社区获取数据,获取通过用户的属性,发现用户的典型行为模式,并且将用户分组,给互联网在线社区提供商进行决策依据。