论文部分内容阅读
跟随国家实施大数据战略、加快建设数字中国的步伐,数据科学领域的发展进入了崭新而富有生机的时代,各行各业对于数据科学人才的需求日益增加。为满足社会经济发展的需要,众多人才培养单位新增了数据科学人才的本科专业或学位点,为进一步提高数据科学人才培养质量和适应度,必须对数据科学人才的需求进行深入分析。本文的主要思路是利用从招聘网站爬取的数据科学人才的需求信息,通过多种文本聚类方法和文本主题词提取模型的构建,将需求的核心内容以网络关系可视化的形式呈现并分析,实现对数据科学人才需求的充分挖掘,为人才培养单位制定数据科学人才的培养模式提供参考依据。论文的具体工作及结论概括如下:1.收集并整理数据。运用python爬取智联招聘和前程无忧等招聘网站上的数据科学人才需求数据,对原始数据中的结构化数据进行缺失值、异常值等数据预处理操作,并将非结构化的文本数据运用文本分句、中文分词、删除停用词和特殊字符等方法也进行文本数据预处理,最终使其成为符合本文所选模型建立和分析的数据类型。2.数据的描述性统计分析。从公司行业、城市区位、公司类别、公司规模、工作经验和学历要求等六个方面对数据科学人才需求的结构化数据做描述性统计分析。通过观察以上指标的描述性统计分析结果,对于当前社会数据科学人才的需求现状有了初步的认识。3.运用聚类的方法对数据科学人才需求进行挖掘。首先运用K-means、GMM、NMF三种聚类方法分别对数据科学人才需求信息的非结构数据进行挖掘;然后在文本聚类的基础上对人才的专业技能进行量化处理和分析;最后从聚类的效果、运行效率和兰德指数三个角度对比,实现对本文中的聚类结果及方法的评价分析。4.构建主题词的提取模型,对数据科学人才需求进行分析。首先,通过LDA主题模型的主题数选择,提取出数据科学人才需求的初始主题词集;然后在此基础上引入word2vec词向量模型对主题词的抽取进行优化拓展;最后将优化扩展后的主题词间的共现关系转化成主题词的共现矩阵,并通过gephi软件从教育学历背景、工作经验、专业知识技能和个人素质能力四个方面进行主题词的网络关系可视化呈现,实现对数据科学人才需求的具体研究分析。5.基于前文研究工作的总结分析,以社会需求为导向,从学生个人和高等院校等培养机构两个角度出发,就数据科学人才的形成和培养给出具体的意见和建议。对个人方面的建议主要是通过让学生自身明确认真学习学校课程构建较为完整的数据科学基础理论体系的重要性,积极参与实践实习等活动掌握好数据科学实战技能和数据科学应用技术。而高等院校等人才培养单位方面,则分别从培养模式、课程设置和综合素质能力培养三个方面对完善数据科学人才体系提出具体建议。