论文部分内容阅读
数据是无处不在的,只要人类的活动依旧,且观测行为始终存在,那么数据就会不断产生。一旦数据被记录下来,它就会成为历史的一个投影,被保存在各种各样的信息媒介中。不过在互联网时代,数据早已挣脱了简单的数字束缚,它不仅可以是符号、文字、语音,更可以是图像或视频。
数据之丰
美景极致之时,我们会拿起手中的相机,将这种美永久定格。风景以照片的形式记录下来。此时,照片的底片,或者数码相机的存储卡就是一个存储数据的媒介。没有相机的时代,古人会以文字的形式记录,马致远的“枯藤老树昏鸦,小桥流水人家”、李白的“飞流直下三千尺,疑是银河落九天”……此时的媒介就是纸上的这一段文字。
如今,我们的数据记录媒介更加多样。比如,我们在超市购物的数据,会以文字的形式,被保留在超市的临时数据库中。而健身达人的夜跑经历,则会被手机或是周围的监控记录。试想一下,全球70亿人口每分每秒都会产生多少数据,而这些数据将会被如何记录或是开发呢?
在互联网技术、社交网络媒体,以及硬盘存储能力高速发展的今天,“记录”这一行为正在变得越来越简单和频繁。人们在网络上的任何行为,如在微博上发的消息、微信朋友圈中的好友、在京东购买的商品等等,都有可能被实时保存下来。很显然,当用户的数量达到一个非常巨大的数值时,这些用户每秒钟产生的数据都是一个天文数字。
数据之惑
面对如此巨大的数据量,对于针对用户的服务提供方来说,其价值是不可估量的。但如果数据的所有方缺乏一种有效的应用策略,那么他们手中的数据将变得一文不值——数据和信息是不可分离的,数据是信息的表达,而信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才会成为信息。
其实从信息索引的角度看,我们在面对信息量爆炸和信息量极度匮乏这两种情况时,如果没有较好的方法,其结果几乎是一样的。如果今天没有类似百度、谷歌这样的搜索引擎,那我们应该怎样在互联网上找到所需的信息或是想要的答案呢?即便我们非常确定,想要寻找的内容一定存在于网络之中。最后的结果想必是确定的,面对如繁星般众多的网页,我们束手无策,找不到自己真正想要的答案。
在互联网时代中,如何针对如此庞大的用户数据,构建一个合适的、有价值的信息提取方案,就成了一个亟待解决的问题,而这个概念就是大家耳熟能详的“大数据”中的一部分——数据挖掘。
数据之力
“大数据”是一个近年来才被提出的概念,它是指在不对已有数据进行抽样提取的情况下,将原有数据作为整体进行处理的方案(当然这只是一个比较宽泛的定义,有兴趣的读者,可以关注由维克托·迈尔·舍恩伯格和肯尼斯·库克耶编写的《大数据时代》)。而这样的方案,不仅能让我们拥有更强的决策力和洞察力,而且还能大大提升流程优化能力。
因此,大数据技术的战略意义不在于掌握多么庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
为了达到处理整体数据的目的,近年来,不少科学家在不同层面上提出了许多非常有趣的新兴技术。比如从数据处理角度出发,有分布式处理方法MapReduce。这是一种编程模型,用于大规模数据集(大于1TB)的并行运算。我们可以将它简单地表述为,将非常大的输入数据分成多份,然后并行处理,最后将并行处理的所有结果整合成最终结果。这项技术比较著名的应用工具有Hadoop和DISCO等。再从数据库角度看,NoSQL数据库以其在信息索引、流媒体存储等方面的高性能,如今已被广泛应用。随着互联网Web2.0网站的兴起,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站时,已显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,比较著名的NoSQL数据库有MongoDB和CouchDB等。
数据之术
在现今互联网大环境下,如何应用“大数据”概念,提取有价值用户信息,从而实现利润最大化呢?除了上述底层结构化的技术支持外,有效的数据挖掘(Data mining),甚至是机器学习(Machine learning)算法都是必不可少的。这类算法大多和数理统计学密切相关,其理论基础也多建立在数理统计学之上。这些行之有效的算法,都有一个相通的基本理念:以史为鉴,即通过历史数据去推断当前甚至未来。
2000年,来自美国伊利诺伊大学香槟分校(University of Illinois Urbana Champaign)的韩家炜教授等人,提出了关联式规则(Association Rules, AR)这一算法,它可从大量数据中挖掘出有价值数据项之间的相关关系。以网络购物平台为例,它拥有着巨量的用户网络购物信息,比如用户购物历史数据:购买时间、商品名称、种类等等。那我们该如何根据一个用户的购物历史向他推荐有可能感兴趣的商品,从而提升用户体验,甚至是提高平台收益呢?这就是关联式规则算法的用武之地了。
数据之丰
美景极致之时,我们会拿起手中的相机,将这种美永久定格。风景以照片的形式记录下来。此时,照片的底片,或者数码相机的存储卡就是一个存储数据的媒介。没有相机的时代,古人会以文字的形式记录,马致远的“枯藤老树昏鸦,小桥流水人家”、李白的“飞流直下三千尺,疑是银河落九天”……此时的媒介就是纸上的这一段文字。
如今,我们的数据记录媒介更加多样。比如,我们在超市购物的数据,会以文字的形式,被保留在超市的临时数据库中。而健身达人的夜跑经历,则会被手机或是周围的监控记录。试想一下,全球70亿人口每分每秒都会产生多少数据,而这些数据将会被如何记录或是开发呢?
在互联网技术、社交网络媒体,以及硬盘存储能力高速发展的今天,“记录”这一行为正在变得越来越简单和频繁。人们在网络上的任何行为,如在微博上发的消息、微信朋友圈中的好友、在京东购买的商品等等,都有可能被实时保存下来。很显然,当用户的数量达到一个非常巨大的数值时,这些用户每秒钟产生的数据都是一个天文数字。
数据之惑
面对如此巨大的数据量,对于针对用户的服务提供方来说,其价值是不可估量的。但如果数据的所有方缺乏一种有效的应用策略,那么他们手中的数据将变得一文不值——数据和信息是不可分离的,数据是信息的表达,而信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才会成为信息。
其实从信息索引的角度看,我们在面对信息量爆炸和信息量极度匮乏这两种情况时,如果没有较好的方法,其结果几乎是一样的。如果今天没有类似百度、谷歌这样的搜索引擎,那我们应该怎样在互联网上找到所需的信息或是想要的答案呢?即便我们非常确定,想要寻找的内容一定存在于网络之中。最后的结果想必是确定的,面对如繁星般众多的网页,我们束手无策,找不到自己真正想要的答案。
在互联网时代中,如何针对如此庞大的用户数据,构建一个合适的、有价值的信息提取方案,就成了一个亟待解决的问题,而这个概念就是大家耳熟能详的“大数据”中的一部分——数据挖掘。
数据之力
“大数据”是一个近年来才被提出的概念,它是指在不对已有数据进行抽样提取的情况下,将原有数据作为整体进行处理的方案(当然这只是一个比较宽泛的定义,有兴趣的读者,可以关注由维克托·迈尔·舍恩伯格和肯尼斯·库克耶编写的《大数据时代》)。而这样的方案,不仅能让我们拥有更强的决策力和洞察力,而且还能大大提升流程优化能力。
因此,大数据技术的战略意义不在于掌握多么庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
为了达到处理整体数据的目的,近年来,不少科学家在不同层面上提出了许多非常有趣的新兴技术。比如从数据处理角度出发,有分布式处理方法MapReduce。这是一种编程模型,用于大规模数据集(大于1TB)的并行运算。我们可以将它简单地表述为,将非常大的输入数据分成多份,然后并行处理,最后将并行处理的所有结果整合成最终结果。这项技术比较著名的应用工具有Hadoop和DISCO等。再从数据库角度看,NoSQL数据库以其在信息索引、流媒体存储等方面的高性能,如今已被广泛应用。随着互联网Web2.0网站的兴起,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站时,已显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,比较著名的NoSQL数据库有MongoDB和CouchDB等。
数据之术
在现今互联网大环境下,如何应用“大数据”概念,提取有价值用户信息,从而实现利润最大化呢?除了上述底层结构化的技术支持外,有效的数据挖掘(Data mining),甚至是机器学习(Machine learning)算法都是必不可少的。这类算法大多和数理统计学密切相关,其理论基础也多建立在数理统计学之上。这些行之有效的算法,都有一个相通的基本理念:以史为鉴,即通过历史数据去推断当前甚至未来。
2000年,来自美国伊利诺伊大学香槟分校(University of Illinois Urbana Champaign)的韩家炜教授等人,提出了关联式规则(Association Rules, AR)这一算法,它可从大量数据中挖掘出有价值数据项之间的相关关系。以网络购物平台为例,它拥有着巨量的用户网络购物信息,比如用户购物历史数据:购买时间、商品名称、种类等等。那我们该如何根据一个用户的购物历史向他推荐有可能感兴趣的商品,从而提升用户体验,甚至是提高平台收益呢?这就是关联式规则算法的用武之地了。