数据科学人才的需求挖掘

来源 :贵州财经大学 | 被引量 : 0次 | 上传用户:jedy2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跟随国家实施大数据战略、加快建设数字中国的步伐,数据科学领域的发展进入了崭新而富有生机的时代,各行各业对于数据科学人才的需求日益增加。为满足社会经济发展的需要,众多人才培养单位新增了数据科学人才的本科专业或学位点,为进一步提高数据科学人才培养质量和适应度,必须对数据科学人才的需求进行深入分析。本文的主要思路是利用从招聘网站爬取的数据科学人才的需求信息,通过多种文本聚类方法和文本主题词提取模型的构建,将需求的核心内容以网络关系可视化的形式呈现并分析,实现对数据科学人才需求的充分挖掘,为人才培养单位制定数据科学人才的培养模式提供参考依据。论文的具体工作及结论概括如下:1.收集并整理数据。运用python爬取智联招聘和前程无忧等招聘网站上的数据科学人才需求数据,对原始数据中的结构化数据进行缺失值、异常值等数据预处理操作,并将非结构化的文本数据运用文本分句、中文分词、删除停用词和特殊字符等方法也进行文本数据预处理,最终使其成为符合本文所选模型建立和分析的数据类型。2.数据的描述性统计分析。从公司行业、城市区位、公司类别、公司规模、工作经验和学历要求等六个方面对数据科学人才需求的结构化数据做描述性统计分析。通过观察以上指标的描述性统计分析结果,对于当前社会数据科学人才的需求现状有了初步的认识。3.运用聚类的方法对数据科学人才需求进行挖掘。首先运用K-means、GMM、NMF三种聚类方法分别对数据科学人才需求信息的非结构数据进行挖掘;然后在文本聚类的基础上对人才的专业技能进行量化处理和分析;最后从聚类的效果、运行效率和兰德指数三个角度对比,实现对本文中的聚类结果及方法的评价分析。4.构建主题词的提取模型,对数据科学人才需求进行分析。首先,通过LDA主题模型的主题数选择,提取出数据科学人才需求的初始主题词集;然后在此基础上引入word2vec词向量模型对主题词的抽取进行优化拓展;最后将优化扩展后的主题词间的共现关系转化成主题词的共现矩阵,并通过gephi软件从教育学历背景、工作经验、专业知识技能和个人素质能力四个方面进行主题词的网络关系可视化呈现,实现对数据科学人才需求的具体研究分析。5.基于前文研究工作的总结分析,以社会需求为导向,从学生个人和高等院校等培养机构两个角度出发,就数据科学人才的形成和培养给出具体的意见和建议。对个人方面的建议主要是通过让学生自身明确认真学习学校课程构建较为完整的数据科学基础理论体系的重要性,积极参与实践实习等活动掌握好数据科学实战技能和数据科学应用技术。而高等院校等人才培养单位方面,则分别从培养模式、课程设置和综合素质能力培养三个方面对完善数据科学人才体系提出具体建议。
其他文献
目的探讨水胶体敷料与3M胶带在留置胃管患者中的联合应用临床效果,为患者寻求更有效的预防胃管移位、脱管及预防皮肤黏膜损伤的固定方法。方法2018年12月-2019年1月我科收治
探讨了开展发电企业向大用户直接供电的条件,提出了一种输电网络开放环境下的电力市场运营模式,即中长期金融合约交易和实时平衡市场相结合的电能交易模式.这种模式使市场竞
针对不同螯合剂配比修复措施对尾矿土壤综合性质、植物生长指标的影响及二者相关性,采用IDS、EDTA 2种螯合剂-紫穗槐联合修复尾矿土重金属进行盆栽试验。结果表明:(1)紫穗槐
我党思想路线的实质是实事求是,实事求是是党存续的生命线,是有中国特色社会主义事业兴旺发达的前提和基础。本文从历史和现实相结合的角度对此进行了阐述。
1 病例报告例1,男性,53岁。咳嗽、左侧胸闷、活动气促1月,胸片及CT显示左胸腔大片透光区,无肺纹理,约占60%,肺被压缩至肺门,可见一液平,纵隔移位不明显。查体:左胸叩诊鼓音,呼吸音很低。
氧化亚氮(N2O)的温室效应潜值很高,是《京都议定书》限制排放的温室气体之一,还具有连续破坏臭氧层的威力。在诸多减排技术中,催化分解法因能耗低、效率高而被认为是有前景的N2
3月14日上午,在十一届全国人大五次会议闭幕后举行的记者会上,温家宝总理表示:“现在我可以明确地告诉大家,房价还远远没有回到合理价位。因此.调控不能放松。如果放松.将前功尽弃.
现在我们来考察一下司马迁的道德观。恩格斯家过:“人们恢复自觉力归根到底总是从他们的阶级地位所依据的实际关系中,就是说,从生产交换所业已进行的经济关系中吸取自己的道
为研究不同品种鸡蛋品质及蛋黄中热量和性激素含量,该试验以遂昌散养土鸡所产的鸡蛋、市售散装土鸡蛋和普通鲜鸡蛋为研究对象,测定鸡蛋重量、蛋黄干湿重和热量以及蛋黄睾酮、