论文部分内容阅读
有这样一种人,他们对数据分析与挖掘具有强烈的兴趣;
有这样一种人,他们既具备统计建模的能力,又对某一业务领域的知识十分熟悉;
有这样一种人,他们在数据分析型项目中必不可少……
这就是大数据时代稀缺的数据科学家。
被《哈佛商业评论》喻为21世纪最性感职业的数据科学家背后到底有哪些不为人知的故事呢?
让我们一起走近数据科学家。
有人给予了大数据专家许多美好的称号,比如“数据开采者”、“数据建筑师”等,但其中最时髦的当属“数据科学家”。当记者在互联网上搜索“数据科学家”这个关键词时,看到的都是“21世纪最性感的职业”、“大数据行业最时髦的职业”等溢美之词。埃森哲大中华区技术咨询董事总经理何悠毅(Jouni Hakanen)表示,目前对数据科学家需求极大。
“性感”的数据科学家
记者采访人人游戏高级数据科学家陈弢时,他提到了当年在香港科技大学计算机系读博士的时候曾听教授这样调侃:“只有那些不能严格被算为科学而又想挤进科学的学科,才会在命名的时候加上‘科学’二字作为后缀,比如计算机科学。”如果这样类比,数据科学家就是一群很难算得上是科学家的人。那么事实到底是不是这样呢?
在《大数据研究的科学价值》一文中,中国工程院李国杰院士相信数据界存在普适的共性问题,比如电网数据分析的算法也可应用于供水和交通管理上。李国杰给出的结论是肯定的:数据科学就是关于数据的科学。
“数据科学家”这个新称谓近两年才被叫响。大数据与数据科学家有着千丝万缕的联系,因此容易让人产生一种错觉,数据科学家是大数据时代特有的一类专才。但其实在传统的结构化数据处理过程中,数据科学家的身影就已经出现。记者最近采访了一些中国的大数据企业,其中很多企业并没有设立数据科学家这一职位,但数据分析师、数据工程师等都在做着数据科学家的工作。
《哈佛商业评论》曾指出,数据科学家是21世纪最性感的职业。所谓性感,既说明数据科学家这一新职业颇具诱惑力,但同时也说明大家对此工作的内涵还不了解。陈弢认为,数据科学目前还处在“白盒研究”的阶段,也就是说数据科学家至少在未来5~10年内还需要先协助其他领域的学者解决大数据带来的技术挑战问题,等到知识的积累达到一定程度,才可能在数据界抽象出通用性较强的“黑盒模型”和普适规律。不过在现阶段,数据科学家的工作也是很务实的。LinkedIn首席数据科学家Manu Sharma曾表示,数据科学家的工作主要包括采集数据、整理数据和建立正确的数学模型、测试模型,他们还需要具有一定的编程能力。数据科学家加工处理的数据不仅有助于数据产品的开发,而且可以有助于发现新的商机,推动企业业务的发展。
随着数据量的迅猛增长,今天企业搜集的数据比以往任何时候都要多,不仅在企业内部,在外部的组织网络和更广泛的消费领域亦是如此。企业文化的转变对组织运营产生了巨大影响。
在新数字化企业及其周围的环境里,数据成为了组织的基石。从创新到所有决策,数据推动着企业的发展,并使得各级组织的运营更为高效。可以这样说,数据将成为每个企业获取下一个核心竞争力的要素。
何悠毅认为,数据科学家的核心作用在于发掘数据的最佳商业价值,而并非简单地使大数据项目落地。尽管大数据项目的实施在没有数据科学家的情况下也能够成功地完成,但有鉴于数据科学家将成为大数据项目的工具、系统和输出的最终用户,数据科学家在大数据项目的计划阶段至关重要。
重“实”不重“名”
关于数据科学家的内涵,不同的企业或从业者也有不同的理解。
陈弢认为,数据科学家有广义和狭义两种:从广义的角度说,以数据为处理对象的从业者都可称为数据科学家,比如原来的数据库管理人员、数据库工程师和数据统计分析师都可以被称为数据科学家;从狭义的角度说,只有那些能够利用数据作为资源,推动公司业务增长、创造附加价值的才是真正的数据科学家。
百度大数据首席架构师林仕鼎也认为:如果从广义的角度讲,从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家;而从狭义的角度讲,那些具有数据分析能力,精通各类算法,直接处理数据的人员才可以称为数据科学家。
记者采访到的大多数人都认为,数据科学家的工作比较纯粹,就是对数据进行加工和分析,因此数据科学家只要具备数据建模和分析能力即可,不一定要具有编程能力。而品友互动CTO沈学华则表示:“如果数据科学家没有一定的编程能力,很难在我们公司立足。”
记者曾经看到过一幅描述数据科学家基本技能的图,那里面提及的数据科学家应具备的技能达上百种。数据科学家到底应该具备哪些基本素质和技能呢?在Cloud Connect大会上,VMware公司全球高级副总裁范承工接受记者采访时表示,数据科学家通常应具备三种能力:数据分析的能力(数学方面的知识)、计算机方面的能力,以及对某行业的应用深入理解的能力,前两种能力是必需的,而第三种能力是可选的。
“数据科学家是一个新兴职位。在高等教育上不存在这一专门学科。目前,在北美地区有多种针对数据科学家的认证。”中桥调研咨询首席分析师王丛(Kim Wang)告诉记者,“数据科学家不仅要懂IT,能够深入了解数据的构成,进行分析建模,实现分析结果的呈现,而且要遵守数据隐私权的规定,同时还要懂得如何将数据变成商业价值。现有的IT架构很可能成为数据分析的障碍。未来IT可能提供更强大的大数据分析能力。”
谈到数据科学家应具备的能力,何悠毅表示,数据科学家所需的基本技能和能力与其他发挥信息数据最大用途的工作相同,即深度分析的能力、扎实的数据挖掘技能以及对统计分析方法和工具的了解。同时,数据科学家还需引导有价值和有意义的见解,这要求其能够深刻理解行业动态和发展趋势、客户的需求与行为以及企业内部的业务流程等。数据科学家必须掌握所有形式的数据,并不断地利用这些资源推动业务实现创新与突破。 何悠毅特别指出:“最优秀的数据科学家还需具备企业家的心态以及关乎创造力的好奇心。毕竟,最高价值的发现往往源自于对某些非常重大的和创新性的事物的探索,而这些正是其他人不能做到的。”
“数据科学家可以被看作是传统意义上的项目管理者与应用开发者的结合体。他们一方面在涉众管理层面发挥作用,另一方面,在业务应用的开发和数据服务交付方面也能提供指导。”Forrester Research首席分析师及企业架构专家Charlie Dai表示,“其实具体的职务并不重要,真正重要的是以前瞻务实的眼光看待数据管理的架构实践,帮助企业业务务实发展。”
Kaggle总裁兼首席科学家Jeremy Howard认为,一个伟大的数据科学家应具备创新、坚韧、好奇、技术功底深厚这四项素质。如果从字面意思来理解,一方面数据科学家要具有科学家的基本素质,比如客观、诚实、严谨;另一方面,数据科学家主要是用数据说话,应具备数据收集、数据改写、可视化、机器学习、计算机编程等能力,并能使数据驱动决策并主导产品的开发。
其实在企业中,数据科学家并不是孤立的个体,而应该是一个团队。数据科学家之间的交流与协作是必需的,这样才更有利于数据处理工作的开展和数据产品的开发。文思海辉金融事业群商业智能事业部解决方案高级经理马宁认为,一个人难以精通与数据业务相关的方方面面的问题,因此企业应该成立一个数据科学团队,团队中的每个人都可以专注于自身擅长的领域。
最需要动脑筋的人
范承工表示,数据科学家在大数据项目中扮演着非常重要的角色。他将大数据架构分为四层:最下面一层是基础架构,其上是大数据管理层(包括数据库、Hadoop等),再上面是数据分析层(也就是数据科学家的主要工作范围),最上层则是应用场景的实现(即大数据应用的实现)。数据科学家的工作需要业务端的配合,也需要底层基础架构为其提供必要的支撑。数据科学家处于基础架构和业务层之间,必须精通数学模型与算法。范承工认为:“数据科学家是最需要动脑筋的人。”在现有的高等教育体系中,还没有数据科学家产生的土壤,因为他们需要在真实的大数据环境中实践和磨炼。那么,现在企业中的数据科学家是从哪里来的?数据科学家与传统的从事数据处理工作的数据库分析师、数据分析师有何区别呢?
“数据库工程师有很多种,有些人的工作与数据科学家相关。‘数据科学家’虽然是一个新名词,但是从事数据分析工作的人一直存在。过去,数据挖掘主要是在结构化数据的基础上完成的,而现在非结构化数据的重要性更高,将结构化数据和非结构化数据相结合进行处理是必需的。”范承工表示,“虽然数据的结构变了,数据模型改变了,数据处理的要求提高了,但数据科学家的本质和工作的最终目标并没改变,那就是提取智能信息,使企业具有更强的竞争力。”
企业级的数据库工程师,处理的往往是以表结构为主的数据库架构。但在大数据时代,数据科学家面对的是像Hadoop、MapReduce这类的数据分析架构。王丛认为,数据科学家需要承担起数据分析各个环节的不同责任,而数据库工程师或数据分析师只须承担数据科学家部分的责任,而不是全部。
何悠毅分析说,数据科学家更侧重于数据的战略方面,即引导、捕捉、发现创新方式,并利用数据提高商业价值。数据科学家往往与企业密切合作,能够协助实现产品的创新与服务的创新。而数据库工程师则更专注于维护数据库的数据,包括硬件和软件的一些技能。数据分析师则更专注于运营方面,他们可以利用现有的系统、工具和方法,每天对数据进行数据挖掘和统计分析。
马宁认为,在实际工作中,数据科学家与数据分析师的界限其实并不清晰。在某些语境里,数据分析师指仅从事统计建模的人员,他们只负责构建精确的数学模型,不需要掌握业务领域的知识,而数据科学家则需要对数学模型进行业务解释,并利用该模型指导业务流程优化,辅助企业决策。但在某些语境中,数据分析师与数据科学家是指同一类人。
数据科学家阶层正在崛起
McKinsey预测在未来6年,仅美国本土就可能缺少14万~19万具备深入分析数据能力的专业人才,能够通过分析大数据支撑企业做出有效决策的数据管理人员和分析师也有150万人的缺口。从这个角度说,数据科学家是大数据时代最紧缺的人才并不为过。
但是目前还没有专门针对数据科学家的教育。高水平的数据科学家最有可能来自于数据分析领域具有长期经验和过硬本领的人。何悠毅告诉记者:“想要成为一个优秀的数据科学家,就必须对业务有极大的激情,再加上拥有好奇心、可视化的技能和创新的力量。”
中桥调研咨询曾经在2013年7月针对中国市场做过一次调研,结果显示:中国目前实现近实时和实时分析的企业不到5%,远远落后于欧美市场53%的比例;在大数据处理中,中国用户目前还主要局限在结构化数据方面,其大数据工作的主要目标是通过批量分析控制成本,提高资金回流和原材料的周转效率,而尚未进入通过对半结构化和非结构化数据进行分析,捕捉新的市场空间的阶段;中国的大多数企业正在评估如何部署大数据分析系统。
“数据科学家能够保障大数据架构的构建顺利进行,是通过IT持续创造价值的新起点。如果没有数据科学家,数据的‘垃圾进,垃圾出’现象将使得大数据的IT投资回报率降低。”王丛补充说,数据科学家的知识储备比例应该是:业务管理流程经验占40%,数据分析流程和与数据相关的基本理论知识占30%,支持大数据分析的IT架构方面的知识占30%。
数据科学家在北美已经形成阶层。王丛认为,中国的大数据市场还处于“清理整合数据”的阶段,不过在未来2~5年内,数据科学家将逐步成为企业中的必设职位,而在企业中负责应用管理的中层人员如果增加综合知识的储备,更容易被培养成数据科学家。
有这样一种人,他们既具备统计建模的能力,又对某一业务领域的知识十分熟悉;
有这样一种人,他们在数据分析型项目中必不可少……
这就是大数据时代稀缺的数据科学家。
被《哈佛商业评论》喻为21世纪最性感职业的数据科学家背后到底有哪些不为人知的故事呢?
让我们一起走近数据科学家。
有人给予了大数据专家许多美好的称号,比如“数据开采者”、“数据建筑师”等,但其中最时髦的当属“数据科学家”。当记者在互联网上搜索“数据科学家”这个关键词时,看到的都是“21世纪最性感的职业”、“大数据行业最时髦的职业”等溢美之词。埃森哲大中华区技术咨询董事总经理何悠毅(Jouni Hakanen)表示,目前对数据科学家需求极大。
“性感”的数据科学家
记者采访人人游戏高级数据科学家陈弢时,他提到了当年在香港科技大学计算机系读博士的时候曾听教授这样调侃:“只有那些不能严格被算为科学而又想挤进科学的学科,才会在命名的时候加上‘科学’二字作为后缀,比如计算机科学。”如果这样类比,数据科学家就是一群很难算得上是科学家的人。那么事实到底是不是这样呢?
在《大数据研究的科学价值》一文中,中国工程院李国杰院士相信数据界存在普适的共性问题,比如电网数据分析的算法也可应用于供水和交通管理上。李国杰给出的结论是肯定的:数据科学就是关于数据的科学。
“数据科学家”这个新称谓近两年才被叫响。大数据与数据科学家有着千丝万缕的联系,因此容易让人产生一种错觉,数据科学家是大数据时代特有的一类专才。但其实在传统的结构化数据处理过程中,数据科学家的身影就已经出现。记者最近采访了一些中国的大数据企业,其中很多企业并没有设立数据科学家这一职位,但数据分析师、数据工程师等都在做着数据科学家的工作。
《哈佛商业评论》曾指出,数据科学家是21世纪最性感的职业。所谓性感,既说明数据科学家这一新职业颇具诱惑力,但同时也说明大家对此工作的内涵还不了解。陈弢认为,数据科学目前还处在“白盒研究”的阶段,也就是说数据科学家至少在未来5~10年内还需要先协助其他领域的学者解决大数据带来的技术挑战问题,等到知识的积累达到一定程度,才可能在数据界抽象出通用性较强的“黑盒模型”和普适规律。不过在现阶段,数据科学家的工作也是很务实的。LinkedIn首席数据科学家Manu Sharma曾表示,数据科学家的工作主要包括采集数据、整理数据和建立正确的数学模型、测试模型,他们还需要具有一定的编程能力。数据科学家加工处理的数据不仅有助于数据产品的开发,而且可以有助于发现新的商机,推动企业业务的发展。
随着数据量的迅猛增长,今天企业搜集的数据比以往任何时候都要多,不仅在企业内部,在外部的组织网络和更广泛的消费领域亦是如此。企业文化的转变对组织运营产生了巨大影响。
在新数字化企业及其周围的环境里,数据成为了组织的基石。从创新到所有决策,数据推动着企业的发展,并使得各级组织的运营更为高效。可以这样说,数据将成为每个企业获取下一个核心竞争力的要素。
何悠毅认为,数据科学家的核心作用在于发掘数据的最佳商业价值,而并非简单地使大数据项目落地。尽管大数据项目的实施在没有数据科学家的情况下也能够成功地完成,但有鉴于数据科学家将成为大数据项目的工具、系统和输出的最终用户,数据科学家在大数据项目的计划阶段至关重要。
重“实”不重“名”
关于数据科学家的内涵,不同的企业或从业者也有不同的理解。
陈弢认为,数据科学家有广义和狭义两种:从广义的角度说,以数据为处理对象的从业者都可称为数据科学家,比如原来的数据库管理人员、数据库工程师和数据统计分析师都可以被称为数据科学家;从狭义的角度说,只有那些能够利用数据作为资源,推动公司业务增长、创造附加价值的才是真正的数据科学家。
百度大数据首席架构师林仕鼎也认为:如果从广义的角度讲,从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家;而从狭义的角度讲,那些具有数据分析能力,精通各类算法,直接处理数据的人员才可以称为数据科学家。
记者采访到的大多数人都认为,数据科学家的工作比较纯粹,就是对数据进行加工和分析,因此数据科学家只要具备数据建模和分析能力即可,不一定要具有编程能力。而品友互动CTO沈学华则表示:“如果数据科学家没有一定的编程能力,很难在我们公司立足。”
记者曾经看到过一幅描述数据科学家基本技能的图,那里面提及的数据科学家应具备的技能达上百种。数据科学家到底应该具备哪些基本素质和技能呢?在Cloud Connect大会上,VMware公司全球高级副总裁范承工接受记者采访时表示,数据科学家通常应具备三种能力:数据分析的能力(数学方面的知识)、计算机方面的能力,以及对某行业的应用深入理解的能力,前两种能力是必需的,而第三种能力是可选的。
“数据科学家是一个新兴职位。在高等教育上不存在这一专门学科。目前,在北美地区有多种针对数据科学家的认证。”中桥调研咨询首席分析师王丛(Kim Wang)告诉记者,“数据科学家不仅要懂IT,能够深入了解数据的构成,进行分析建模,实现分析结果的呈现,而且要遵守数据隐私权的规定,同时还要懂得如何将数据变成商业价值。现有的IT架构很可能成为数据分析的障碍。未来IT可能提供更强大的大数据分析能力。”
谈到数据科学家应具备的能力,何悠毅表示,数据科学家所需的基本技能和能力与其他发挥信息数据最大用途的工作相同,即深度分析的能力、扎实的数据挖掘技能以及对统计分析方法和工具的了解。同时,数据科学家还需引导有价值和有意义的见解,这要求其能够深刻理解行业动态和发展趋势、客户的需求与行为以及企业内部的业务流程等。数据科学家必须掌握所有形式的数据,并不断地利用这些资源推动业务实现创新与突破。 何悠毅特别指出:“最优秀的数据科学家还需具备企业家的心态以及关乎创造力的好奇心。毕竟,最高价值的发现往往源自于对某些非常重大的和创新性的事物的探索,而这些正是其他人不能做到的。”
“数据科学家可以被看作是传统意义上的项目管理者与应用开发者的结合体。他们一方面在涉众管理层面发挥作用,另一方面,在业务应用的开发和数据服务交付方面也能提供指导。”Forrester Research首席分析师及企业架构专家Charlie Dai表示,“其实具体的职务并不重要,真正重要的是以前瞻务实的眼光看待数据管理的架构实践,帮助企业业务务实发展。”
Kaggle总裁兼首席科学家Jeremy Howard认为,一个伟大的数据科学家应具备创新、坚韧、好奇、技术功底深厚这四项素质。如果从字面意思来理解,一方面数据科学家要具有科学家的基本素质,比如客观、诚实、严谨;另一方面,数据科学家主要是用数据说话,应具备数据收集、数据改写、可视化、机器学习、计算机编程等能力,并能使数据驱动决策并主导产品的开发。
其实在企业中,数据科学家并不是孤立的个体,而应该是一个团队。数据科学家之间的交流与协作是必需的,这样才更有利于数据处理工作的开展和数据产品的开发。文思海辉金融事业群商业智能事业部解决方案高级经理马宁认为,一个人难以精通与数据业务相关的方方面面的问题,因此企业应该成立一个数据科学团队,团队中的每个人都可以专注于自身擅长的领域。
最需要动脑筋的人
范承工表示,数据科学家在大数据项目中扮演着非常重要的角色。他将大数据架构分为四层:最下面一层是基础架构,其上是大数据管理层(包括数据库、Hadoop等),再上面是数据分析层(也就是数据科学家的主要工作范围),最上层则是应用场景的实现(即大数据应用的实现)。数据科学家的工作需要业务端的配合,也需要底层基础架构为其提供必要的支撑。数据科学家处于基础架构和业务层之间,必须精通数学模型与算法。范承工认为:“数据科学家是最需要动脑筋的人。”在现有的高等教育体系中,还没有数据科学家产生的土壤,因为他们需要在真实的大数据环境中实践和磨炼。那么,现在企业中的数据科学家是从哪里来的?数据科学家与传统的从事数据处理工作的数据库分析师、数据分析师有何区别呢?
“数据库工程师有很多种,有些人的工作与数据科学家相关。‘数据科学家’虽然是一个新名词,但是从事数据分析工作的人一直存在。过去,数据挖掘主要是在结构化数据的基础上完成的,而现在非结构化数据的重要性更高,将结构化数据和非结构化数据相结合进行处理是必需的。”范承工表示,“虽然数据的结构变了,数据模型改变了,数据处理的要求提高了,但数据科学家的本质和工作的最终目标并没改变,那就是提取智能信息,使企业具有更强的竞争力。”
企业级的数据库工程师,处理的往往是以表结构为主的数据库架构。但在大数据时代,数据科学家面对的是像Hadoop、MapReduce这类的数据分析架构。王丛认为,数据科学家需要承担起数据分析各个环节的不同责任,而数据库工程师或数据分析师只须承担数据科学家部分的责任,而不是全部。
何悠毅分析说,数据科学家更侧重于数据的战略方面,即引导、捕捉、发现创新方式,并利用数据提高商业价值。数据科学家往往与企业密切合作,能够协助实现产品的创新与服务的创新。而数据库工程师则更专注于维护数据库的数据,包括硬件和软件的一些技能。数据分析师则更专注于运营方面,他们可以利用现有的系统、工具和方法,每天对数据进行数据挖掘和统计分析。
马宁认为,在实际工作中,数据科学家与数据分析师的界限其实并不清晰。在某些语境里,数据分析师指仅从事统计建模的人员,他们只负责构建精确的数学模型,不需要掌握业务领域的知识,而数据科学家则需要对数学模型进行业务解释,并利用该模型指导业务流程优化,辅助企业决策。但在某些语境中,数据分析师与数据科学家是指同一类人。
数据科学家阶层正在崛起
McKinsey预测在未来6年,仅美国本土就可能缺少14万~19万具备深入分析数据能力的专业人才,能够通过分析大数据支撑企业做出有效决策的数据管理人员和分析师也有150万人的缺口。从这个角度说,数据科学家是大数据时代最紧缺的人才并不为过。
但是目前还没有专门针对数据科学家的教育。高水平的数据科学家最有可能来自于数据分析领域具有长期经验和过硬本领的人。何悠毅告诉记者:“想要成为一个优秀的数据科学家,就必须对业务有极大的激情,再加上拥有好奇心、可视化的技能和创新的力量。”
中桥调研咨询曾经在2013年7月针对中国市场做过一次调研,结果显示:中国目前实现近实时和实时分析的企业不到5%,远远落后于欧美市场53%的比例;在大数据处理中,中国用户目前还主要局限在结构化数据方面,其大数据工作的主要目标是通过批量分析控制成本,提高资金回流和原材料的周转效率,而尚未进入通过对半结构化和非结构化数据进行分析,捕捉新的市场空间的阶段;中国的大多数企业正在评估如何部署大数据分析系统。
“数据科学家能够保障大数据架构的构建顺利进行,是通过IT持续创造价值的新起点。如果没有数据科学家,数据的‘垃圾进,垃圾出’现象将使得大数据的IT投资回报率降低。”王丛补充说,数据科学家的知识储备比例应该是:业务管理流程经验占40%,数据分析流程和与数据相关的基本理论知识占30%,支持大数据分析的IT架构方面的知识占30%。
数据科学家在北美已经形成阶层。王丛认为,中国的大数据市场还处于“清理整合数据”的阶段,不过在未来2~5年内,数据科学家将逐步成为企业中的必设职位,而在企业中负责应用管理的中层人员如果增加综合知识的储备,更容易被培养成数据科学家。