论文部分内容阅读
数据是一种资产,这已经成为越来越多人的共识。但要利用好数据、真正让数据发挥其价值并不是一件容易的事情。这其中有着很高的技术门槛和资金门槛,因此,很长时间以来数据挖掘、商业智能距离大多数中小企业都很遥远,即使相关厂商不断努力让数据分析技术“平民化”,而今数据的爆炸性增长更是加剧了这种挑战。
“过去我们只有在企业中、在工作状态中才会产生数据,而在云计算、社交媒体和移动计算高度普及的今天,我们几乎24小时在生产数据,从而迎来了大数据时代。这就使得企业在数据的处理上面临相当大的压力。”Informatica高级副总裁兼首席信息官托尼·杨在日前举行的“2012 Informatica 全球巡展(北京站)”上表示。作为一家以数据集成为主要业务的公司CIO,托尼·杨对于数据的爆炸性增长有着更为直接的体会。
托尼·杨认为,大数据时代建立在传统的基于数据仓库之上的数据分析处理方法面临着很大局限性,至少从性价比(数据的价值/数据的成本)上来看。一方面,数据仓库的建设不管是软硬件的购置还是数据的准备都涉及很大的投入;而另一方面,数据仓库的部署以及随后的数据建模及其分析都需要专业人士的参与。另外,过去的数据分析方法都是面向传统的结构化数据,而对非结构化数据的处理并不擅长。这也正是Hadoop广受欢迎的主要原因之一。
“Hadoop的出现将大幅降低数据分析和处理的门槛,提高数据的回报率。”Informatica核心技术部资深产品管理总监郑玮表示。
在郑玮看来,Hadoop可以从两个方面降低数据处理和分析的成本。其一,Hadoop是开源软件,尽管并不意味着免费,但和商业软件相比,其采购成本要低得多;其二,Hadoop是为普通的硬件设备而设计,本身已经充分考虑到这些硬件的不可靠性,而不是专用硬件,这就大幅降低了硬件投入成本。不过,在郑玮看来,Hadoop的最大价值在于它让我们可以以一种全新的、高回报率的方式来创新性地处理数据。比如,很多电子商务网站利用它来分析访客的行为,从而做出更科学的营销策略,一些半导体企业利用它来帮助分析产品缺陷。而为了帮助企业用好Hadoop,Informatica在其最新的产品Informatica 9.5中特别新增了一些功能模块,包括帮助企业把数据转载入Hadoop、探查Hadoop中数据的质量以及把数据从Hadoop中导入数据仓库中等。
“降低数据的成本,同时提高数据的价值,另外,即使你是一个小企业,也可以用好大数据,这就是Hadoop的最大价值。”郑玮表示。
“过去我们只有在企业中、在工作状态中才会产生数据,而在云计算、社交媒体和移动计算高度普及的今天,我们几乎24小时在生产数据,从而迎来了大数据时代。这就使得企业在数据的处理上面临相当大的压力。”Informatica高级副总裁兼首席信息官托尼·杨在日前举行的“2012 Informatica 全球巡展(北京站)”上表示。作为一家以数据集成为主要业务的公司CIO,托尼·杨对于数据的爆炸性增长有着更为直接的体会。
托尼·杨认为,大数据时代建立在传统的基于数据仓库之上的数据分析处理方法面临着很大局限性,至少从性价比(数据的价值/数据的成本)上来看。一方面,数据仓库的建设不管是软硬件的购置还是数据的准备都涉及很大的投入;而另一方面,数据仓库的部署以及随后的数据建模及其分析都需要专业人士的参与。另外,过去的数据分析方法都是面向传统的结构化数据,而对非结构化数据的处理并不擅长。这也正是Hadoop广受欢迎的主要原因之一。
“Hadoop的出现将大幅降低数据分析和处理的门槛,提高数据的回报率。”Informatica核心技术部资深产品管理总监郑玮表示。
在郑玮看来,Hadoop可以从两个方面降低数据处理和分析的成本。其一,Hadoop是开源软件,尽管并不意味着免费,但和商业软件相比,其采购成本要低得多;其二,Hadoop是为普通的硬件设备而设计,本身已经充分考虑到这些硬件的不可靠性,而不是专用硬件,这就大幅降低了硬件投入成本。不过,在郑玮看来,Hadoop的最大价值在于它让我们可以以一种全新的、高回报率的方式来创新性地处理数据。比如,很多电子商务网站利用它来分析访客的行为,从而做出更科学的营销策略,一些半导体企业利用它来帮助分析产品缺陷。而为了帮助企业用好Hadoop,Informatica在其最新的产品Informatica 9.5中特别新增了一些功能模块,包括帮助企业把数据转载入Hadoop、探查Hadoop中数据的质量以及把数据从Hadoop中导入数据仓库中等。
“降低数据的成本,同时提高数据的价值,另外,即使你是一个小企业,也可以用好大数据,这就是Hadoop的最大价值。”郑玮表示。