论文部分内容阅读
【摘 要】在大数据时代,各行各业对数据科学人才的需求量大幅增长,而我国尚未建立起成熟有效的数据科学人才培养体系。本文从领域知识、基础理论、计算机工具和社会实践等四个方面对如何培养数据科学人才进行了探讨,以期为我国高校制定数据科学人才培养方案提供参考。
【关键词】数据科学人才 领域知识 基础理论 计算机工具 社会实践
一、引言
随着大数据时代的到来,无处不在的“数据”引发了人们空前的关注,各行各业对数据科学人才的需求量都呈现出大幅增长的趋势。然而,当前不论是国内还是国外,数据科学人才的数量与实际需求相比都存在很大的缺口。培养大量合格的数据科学人才成为一项急迫的任务。本文根据数据科学人才应当具有的知识结构,从领域知识、基础理论、计算机工具和社会实践四个方面对如何培养数据科学人才进行探讨,为国内高校建立数据科学人才培养机制提供参考。
二、领域知识
数据科学人才的职责是解决特定领域的问题。因此,数据科学人才必须具备一定的业务领域知识,包括行业信息和业务信息。一方面,这是正确开展数据分析工作的前提和保障;另一方面,积累足够的领域知识有助于评价和区分有价值的数据分析结果。
三、基础理论
数据科学人才因为是与数据打交道,所以需要具有扎实的数学理论基础。高等数学、线性代数、概率论、离散数学等课程都是需要学习的理论基础课。除此之外,统计学、数据挖掘等方面的基础理论对于建立数据科学人才的知识体系非常必要,应当重点加强。
统计学是应用数学的分支,包括描述统计和推断统计。描述统计主要研究如何收集、处理和描述数据,推断统计则是研究如何利用样本数据来推断总体特征。统计学是数据分析的灵魂,可以实现对数据的量化分析、总结、推断和预测,为相关领域问题的决策提供依据和参考。
数据挖掘是数据科学的必备理论工具。数据科学把原始数据看作是形成知识的源泉,作为交叉学科的数据挖掘正是综合运用数学、数据库、人工智能、机器学习、可视化和并行计算等方面的知识从数据海洋中提炼出有价值的信息,为领域决策提供重要支持。
四、计算机工具
在这个数据爆炸的时代,仅依靠人力处理快速增长的数据并不现实,人们必须借助计算机来进行处理大量的数据。因此,数据科学人才需要熟练掌握相应的计算机工具。
数据科学人才需要掌握的计算机工具之一就是用于存储数据的数据库管理系统,包括传统的关系数据库和新兴的NoSQL数据库。对于结构化数据,使用关系数据库和结构化查询语言(SQL)对其进行存储和查询的技术已非常成熟。随着数据多样性的程度越来越高,半结构化或非结构化数据(如文档、图像、音频、视频数据)所占的比重越来越大。这类数据更适合使用非关系的NoSQL数据库进行存储与查询。目前常用的NoSQL数据库有MongoDB、HBase等。
除了数据库,用于数据处理的编程框架和编程语言也是数据科学人才需要掌握的。当前广受关注的开源数据处理编程框架包括Hadoop、Spark、Storm等。Hadoop是一个能够对大量数据进行分布式处理的软件框架,其核心是分布式文件系统HDFS和MapReduce编程模型,能够充分利用集群的计算能力和存储能力来处理大规模数据。Spark与Hadoop的工作原理类似,但由于Spark是把中间计算结果保存在内存中而非分布式文件系统中,因此比Hadoop具有更快的运算速度。Storm是一个分布式的实时计算系统,主要针对流式数据进行处理,适用于对实时性要求较高的系统。上述三个编程框架都主要使用Java作为编程语言。此外,Scala、Python、R等也都是在数据处理中常用的编程语言。
为了将数据分析结果用最易于理解的方式呈现出来,数据可视化工具必不可少。常用的数据可视化工具包括Excel、R和Google Chart API等。另外还有不少值得关注的国产数据可视化工具,例如大数据魔镜。
五、社会实践
数据通常是来源于人们的生产生活,研究数据科学的目的也是为了更好地服务于人们的生产生活。因此,培养数据科学人才必须注重理论联系实际,通过社会实践来提高数据科学人才分析和解决实际问题的能力。
社会实践一方面是要让学生接触产业界,了解不同行业的背景和需求,特别是要利用在实际生产生活中产生的大数据进行学习,这样能够更好地理解理论知识。除了在不同的行业进行实习,参加各类大数据竞赛也是一个接触产业界的很好的方式。现在不少政府部门、学术组织、企业、高校都通过组织大数据竞赛的方式促进人才培养,推动产业发展。影响力比较大的竞赛包括中国计算机学会主办的中国大数据技术创新大赛、全国青年大数据创新大赛,阿里巴巴集团举办的天池大数据竞赛,百度和西安交通大学举办的大数据竞赛等等。通过实习或竞赛,学生能够在实践中锻炼能力,从而能够更快地成长为合格的数据科学人才。
社会实践的另一方面是培养学生的沟通与表达能力。因为数据科学是为各行各业服务的,所以数据科学人才需要同非数据科学专业的人士交流,了解其需求,并向其解释数据分析的结果。这就需要数据科学人才在掌握专业能力之外,同时需要具备良好的交流能力。因此,人际交往能力是数据科学人才培养的重要方面。
六、总结
数据科学是一门综合性的学科,培养数据科学人才也是一项系统工程。只有从领域知识、基础理论、计算机工具和社会实践这几个方面统筹规划,制定合理的培养方案,才能培养出既有理论水平又有实践经验的数据科学人才,这样的人才将更受社会欢迎。
【参考文献】
[1]许嘉,吕品.哈佛大学数据科学课程教学初探[J].教育界,2015(15).
[2]Rachel Schutt, Cathy O’Neil. Doing Data Science[M].O’Reilly,2013.
[3]杨旭,汤海京,丁刚毅.数据科学导论[M].北京:北京理工大学出版社,2014.
【关键词】数据科学人才 领域知识 基础理论 计算机工具 社会实践
一、引言
随着大数据时代的到来,无处不在的“数据”引发了人们空前的关注,各行各业对数据科学人才的需求量都呈现出大幅增长的趋势。然而,当前不论是国内还是国外,数据科学人才的数量与实际需求相比都存在很大的缺口。培养大量合格的数据科学人才成为一项急迫的任务。本文根据数据科学人才应当具有的知识结构,从领域知识、基础理论、计算机工具和社会实践四个方面对如何培养数据科学人才进行探讨,为国内高校建立数据科学人才培养机制提供参考。
二、领域知识
数据科学人才的职责是解决特定领域的问题。因此,数据科学人才必须具备一定的业务领域知识,包括行业信息和业务信息。一方面,这是正确开展数据分析工作的前提和保障;另一方面,积累足够的领域知识有助于评价和区分有价值的数据分析结果。
三、基础理论
数据科学人才因为是与数据打交道,所以需要具有扎实的数学理论基础。高等数学、线性代数、概率论、离散数学等课程都是需要学习的理论基础课。除此之外,统计学、数据挖掘等方面的基础理论对于建立数据科学人才的知识体系非常必要,应当重点加强。
统计学是应用数学的分支,包括描述统计和推断统计。描述统计主要研究如何收集、处理和描述数据,推断统计则是研究如何利用样本数据来推断总体特征。统计学是数据分析的灵魂,可以实现对数据的量化分析、总结、推断和预测,为相关领域问题的决策提供依据和参考。
数据挖掘是数据科学的必备理论工具。数据科学把原始数据看作是形成知识的源泉,作为交叉学科的数据挖掘正是综合运用数学、数据库、人工智能、机器学习、可视化和并行计算等方面的知识从数据海洋中提炼出有价值的信息,为领域决策提供重要支持。
四、计算机工具
在这个数据爆炸的时代,仅依靠人力处理快速增长的数据并不现实,人们必须借助计算机来进行处理大量的数据。因此,数据科学人才需要熟练掌握相应的计算机工具。
数据科学人才需要掌握的计算机工具之一就是用于存储数据的数据库管理系统,包括传统的关系数据库和新兴的NoSQL数据库。对于结构化数据,使用关系数据库和结构化查询语言(SQL)对其进行存储和查询的技术已非常成熟。随着数据多样性的程度越来越高,半结构化或非结构化数据(如文档、图像、音频、视频数据)所占的比重越来越大。这类数据更适合使用非关系的NoSQL数据库进行存储与查询。目前常用的NoSQL数据库有MongoDB、HBase等。
除了数据库,用于数据处理的编程框架和编程语言也是数据科学人才需要掌握的。当前广受关注的开源数据处理编程框架包括Hadoop、Spark、Storm等。Hadoop是一个能够对大量数据进行分布式处理的软件框架,其核心是分布式文件系统HDFS和MapReduce编程模型,能够充分利用集群的计算能力和存储能力来处理大规模数据。Spark与Hadoop的工作原理类似,但由于Spark是把中间计算结果保存在内存中而非分布式文件系统中,因此比Hadoop具有更快的运算速度。Storm是一个分布式的实时计算系统,主要针对流式数据进行处理,适用于对实时性要求较高的系统。上述三个编程框架都主要使用Java作为编程语言。此外,Scala、Python、R等也都是在数据处理中常用的编程语言。
为了将数据分析结果用最易于理解的方式呈现出来,数据可视化工具必不可少。常用的数据可视化工具包括Excel、R和Google Chart API等。另外还有不少值得关注的国产数据可视化工具,例如大数据魔镜。
五、社会实践
数据通常是来源于人们的生产生活,研究数据科学的目的也是为了更好地服务于人们的生产生活。因此,培养数据科学人才必须注重理论联系实际,通过社会实践来提高数据科学人才分析和解决实际问题的能力。
社会实践一方面是要让学生接触产业界,了解不同行业的背景和需求,特别是要利用在实际生产生活中产生的大数据进行学习,这样能够更好地理解理论知识。除了在不同的行业进行实习,参加各类大数据竞赛也是一个接触产业界的很好的方式。现在不少政府部门、学术组织、企业、高校都通过组织大数据竞赛的方式促进人才培养,推动产业发展。影响力比较大的竞赛包括中国计算机学会主办的中国大数据技术创新大赛、全国青年大数据创新大赛,阿里巴巴集团举办的天池大数据竞赛,百度和西安交通大学举办的大数据竞赛等等。通过实习或竞赛,学生能够在实践中锻炼能力,从而能够更快地成长为合格的数据科学人才。
社会实践的另一方面是培养学生的沟通与表达能力。因为数据科学是为各行各业服务的,所以数据科学人才需要同非数据科学专业的人士交流,了解其需求,并向其解释数据分析的结果。这就需要数据科学人才在掌握专业能力之外,同时需要具备良好的交流能力。因此,人际交往能力是数据科学人才培养的重要方面。
六、总结
数据科学是一门综合性的学科,培养数据科学人才也是一项系统工程。只有从领域知识、基础理论、计算机工具和社会实践这几个方面统筹规划,制定合理的培养方案,才能培养出既有理论水平又有实践经验的数据科学人才,这样的人才将更受社会欢迎。
【参考文献】
[1]许嘉,吕品.哈佛大学数据科学课程教学初探[J].教育界,2015(15).
[2]Rachel Schutt, Cathy O’Neil. Doing Data Science[M].O’Reilly,2013.
[3]杨旭,汤海京,丁刚毅.数据科学导论[M].北京:北京理工大学出版社,2014.