浅谈数据科学人才的培养

来源 :教育界·下旬 | 被引量 : 0次 | 上传用户:wzgncsyj1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】在大数据时代,各行各业对数据科学人才的需求量大幅增长,而我国尚未建立起成熟有效的数据科学人才培养体系。本文从领域知识、基础理论、计算机工具和社会实践等四个方面对如何培养数据科学人才进行了探讨,以期为我国高校制定数据科学人才培养方案提供参考。
  【关键词】数据科学人才 领域知识 基础理论 计算机工具 社会实践
  一、引言
  随着大数据时代的到来,无处不在的“数据”引发了人们空前的关注,各行各业对数据科学人才的需求量都呈现出大幅增长的趋势。然而,当前不论是国内还是国外,数据科学人才的数量与实际需求相比都存在很大的缺口。培养大量合格的数据科学人才成为一项急迫的任务。本文根据数据科学人才应当具有的知识结构,从领域知识、基础理论、计算机工具和社会实践四个方面对如何培养数据科学人才进行探讨,为国内高校建立数据科学人才培养机制提供参考。
  二、领域知识
  数据科学人才的职责是解决特定领域的问题。因此,数据科学人才必须具备一定的业务领域知识,包括行业信息和业务信息。一方面,这是正确开展数据分析工作的前提和保障;另一方面,积累足够的领域知识有助于评价和区分有价值的数据分析结果。
  三、基础理论
  数据科学人才因为是与数据打交道,所以需要具有扎实的数学理论基础。高等数学、线性代数、概率论、离散数学等课程都是需要学习的理论基础课。除此之外,统计学、数据挖掘等方面的基础理论对于建立数据科学人才的知识体系非常必要,应当重点加强。
  统计学是应用数学的分支,包括描述统计和推断统计。描述统计主要研究如何收集、处理和描述数据,推断统计则是研究如何利用样本数据来推断总体特征。统计学是数据分析的灵魂,可以实现对数据的量化分析、总结、推断和预测,为相关领域问题的决策提供依据和参考。
  数据挖掘是数据科学的必备理论工具。数据科学把原始数据看作是形成知识的源泉,作为交叉学科的数据挖掘正是综合运用数学、数据库、人工智能、机器学习、可视化和并行计算等方面的知识从数据海洋中提炼出有价值的信息,为领域决策提供重要支持。
  四、计算机工具
  在这个数据爆炸的时代,仅依靠人力处理快速增长的数据并不现实,人们必须借助计算机来进行处理大量的数据。因此,数据科学人才需要熟练掌握相应的计算机工具。
  数据科学人才需要掌握的计算机工具之一就是用于存储数据的数据库管理系统,包括传统的关系数据库和新兴的NoSQL数据库。对于结构化数据,使用关系数据库和结构化查询语言(SQL)对其进行存储和查询的技术已非常成熟。随着数据多样性的程度越来越高,半结构化或非结构化数据(如文档、图像、音频、视频数据)所占的比重越来越大。这类数据更适合使用非关系的NoSQL数据库进行存储与查询。目前常用的NoSQL数据库有MongoDB、HBase等。
  除了数据库,用于数据处理的编程框架和编程语言也是数据科学人才需要掌握的。当前广受关注的开源数据处理编程框架包括Hadoop、Spark、Storm等。Hadoop是一个能够对大量数据进行分布式处理的软件框架,其核心是分布式文件系统HDFS和MapReduce编程模型,能够充分利用集群的计算能力和存储能力来处理大规模数据。Spark与Hadoop的工作原理类似,但由于Spark是把中间计算结果保存在内存中而非分布式文件系统中,因此比Hadoop具有更快的运算速度。Storm是一个分布式的实时计算系统,主要针对流式数据进行处理,适用于对实时性要求较高的系统。上述三个编程框架都主要使用Java作为编程语言。此外,Scala、Python、R等也都是在数据处理中常用的编程语言。
  为了将数据分析结果用最易于理解的方式呈现出来,数据可视化工具必不可少。常用的数据可视化工具包括Excel、R和Google Chart API等。另外还有不少值得关注的国产数据可视化工具,例如大数据魔镜。
  五、社会实践
  数据通常是来源于人们的生产生活,研究数据科学的目的也是为了更好地服务于人们的生产生活。因此,培养数据科学人才必须注重理论联系实际,通过社会实践来提高数据科学人才分析和解决实际问题的能力。
  社会实践一方面是要让学生接触产业界,了解不同行业的背景和需求,特别是要利用在实际生产生活中产生的大数据进行学习,这样能够更好地理解理论知识。除了在不同的行业进行实习,参加各类大数据竞赛也是一个接触产业界的很好的方式。现在不少政府部门、学术组织、企业、高校都通过组织大数据竞赛的方式促进人才培养,推动产业发展。影响力比较大的竞赛包括中国计算机学会主办的中国大数据技术创新大赛、全国青年大数据创新大赛,阿里巴巴集团举办的天池大数据竞赛,百度和西安交通大学举办的大数据竞赛等等。通过实习或竞赛,学生能够在实践中锻炼能力,从而能够更快地成长为合格的数据科学人才。
  社会实践的另一方面是培养学生的沟通与表达能力。因为数据科学是为各行各业服务的,所以数据科学人才需要同非数据科学专业的人士交流,了解其需求,并向其解释数据分析的结果。这就需要数据科学人才在掌握专业能力之外,同时需要具备良好的交流能力。因此,人际交往能力是数据科学人才培养的重要方面。
  六、总结
  数据科学是一门综合性的学科,培养数据科学人才也是一项系统工程。只有从领域知识、基础理论、计算机工具和社会实践这几个方面统筹规划,制定合理的培养方案,才能培养出既有理论水平又有实践经验的数据科学人才,这样的人才将更受社会欢迎。
  【参考文献】
  [1]许嘉,吕品.哈佛大学数据科学课程教学初探[J].教育界,2015(15).
  [2]Rachel Schutt, Cathy O’Neil. Doing Data Science[M].O’Reilly,2013.
  [3]杨旭,汤海京,丁刚毅.数据科学导论[M].北京:北京理工大学出版社,2014.
其他文献
目的研究建立可操作性、灵活性和实用性的处方评价方法。方法利用SQL查询技术在医院信息系统中提取特定时间段内的处方信息,对全样本处方数据进行多项指标的统计分析。结果共
目的探讨慢性乙型肝炎(CHB)患者外周血单个核细胞(PBMC)培养上清液中细胞因子的临床意义。方法采用免疫酶联免疫吸附技术双抗体夹心法检测30例慢性乙型肝炎患者和15例健康对照外
要办好一所学校,确立先进的办学理念是必不可少的,但更重要的是如何将办学理念落实到学校各项工作中去。河南省焦作市许衡中学在短短5年时间里,实现了“轻负担,高质量”,引起社会
我国近几年来走上新型工业化道路,产业化进程逐步加快。设计,特别是产品设计已经呈现迅猛发展的势头。市场对“技术技能型人才”的需求量日益扩大。对于高职院校来说,如何培养一批能满足企业需求、具有较强动手能力的高素质人才是现阶段高职院校需要解决的关键问题。2012年温家宝总理提出“中国要从制造大国向创造大国转变”。这进一步提高了设计在一般生产活动中的比重。也对设计人才的培养提出了更高要求。  1 产品造型
摘 要:新课程改革实施后,学生的主体性受到关注。新课改要求培养学生的自主能力,促进他们的素质发展。在此背景下,初中化学实验教学也应体现学生的主体地位。本文围绕初中化学实验课堂中学生自主能力的培养展开论述。  关键词:初中化学;实验教学;自主能力  新时代社会需要的是拥有自主性的独立型人才。由于初中学生刚刚接触化学这一学科,且化学知识具有逻辑性和抽象性较强的特点,教师总是手把手地教学生,致使学生对教
【摘 要】辅导员的职业化与专业化建设是新时期促进大学生成长、成才的重要途径,也是实现高职院校人才培养目标和稳定发展的重要保证。文章在分析了辅导员队伍的现状后,也提出了辅导员队伍职业化、专业化建设的途径。  【关键词】辅导员 职业化 专业化    高职院校辅导员是高校教师队伍的一个重要组成部分,是高职院校开展思想政治教育工作、对大学生进行思想政治教育的骨干力量。那么辅导员队伍能否像教师队伍建
颈部是全身淋巴结转移癌的最常见部位。头颈部恶性肿瘤、胸部肿瘤、淋巴瘤等常转移或侵及颈部淋巴结,头颈部炎症、结核也可引起颈部淋巴结肿大,其病因不同,治疗方案和预后也
【摘 要】本文分析了南洋理工学院的主要职教理念,包括:教学工厂、经验积累和分享、无界化、量身订制、终身学习与无货架寿命,为我国高职教育教学改革提供借鉴。  【关键词】南洋理工学院 职业教育     新加坡南洋理工学院相当于我国的高等职业技术学院,其严谨的学风历来受到国内外的高度评价,其办学特色和创新理念也享有国际盛誉。南洋理工学院的创新职业教育理念主要包括:“教学工厂”“经验积累和分享”“无界化”
随着国民经济的不断发展,职业技术教育成为了促进经济发展、社会协调的重要内容。目前,以就业为导向的技工教育改革,是满足社会需求和提高人们生活水平的主要手段。促进技工教育
现代信息技术的发展,打破了传统企业经营理念与模式,突破了时间、地域的限制,极大地推动了电子商务的发展。“电子商务的兴起极大地拓宽了消费市场,增加了消费者获得信息的途径,提供了更加方便快捷的消费方式”。随着网上贸易形式的不断丰富,对网上贸易课程教学提出了新的要求。如何增强网上贸易教学的实效性,最好的教学方法是让学生进入网上贸易实践,在网上贸易实践中有效的实现理论与实践的结合。  一、概念阐述  1.