基于科技大数据的学者职业生涯研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:yaozhongli00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技大数据一般特指与科学技术领域相关的大尺度数据,该类数据具有科学性、系统性、严谨性以及传承性等特点,蕴含一定科学技术发展规律。科技大数据中不仅包含了科学发展的历史进程以及技术演变的趋势和规律,还蕴含了学者职业生涯流动的历史和走向。基于科技大数据的学者职业生涯研究能够很好地发掘学者个体及群体在时间、空间、研究兴趣、合作关系上的演变与趋向。然而,该领域是随着大数据及人工智能时代的来临而兴起的,尚处于早期研究阶段,仍有许多问题并未探索;另外,一些关键性的技术问题尚未突破,例如,如何实现研究机构的消歧、如何构建学者的迁徙路线、如何对学者的职业生涯进行建模并预测其未来趋势、如何将学者职业生涯发展应用于学科领域的探究、如何对特定场景下学者流动规律探索等。针对该领域的一些关键性的技术问题及需要探索的部分重点问题,本文进行了一系列的研究和实验,主要研究成果包括:(1)针对既有机构命名消歧方法难以处理不断增长、变化的科技大数据的缺陷,提出了一种基于知识图谱中实体链接的机构命名消歧框架ELAD。该框架具有减少人工干预、建立机构实体间联系以及有效描述实体、学习知识图谱知识等优点。ELAD主要包括候选集生成算法和结果选择算法两个子模块。候选集生成算法(Candidate Generation Algorithm)主要通过语言模型向知识图谱中的实体映射建立论文的隶属字符串与可能机构实体之间的连接,并以此生成一个涵盖所有可能候选机构的实体集合。结果选择算法通过引入LCS(Longest Common Subsequence)和MED(Minimum Edit Distance)等算法将每个候选集结果的可能性映射到一个概率空间中,利用信息熵原理选择最有可能的结果来获得最可能的机构实体。在真实数据场景下的实验结果显示,该框架各项性能指标均优于传统方法,且对知识图谱的请求不会随着数据量的增长而线性增长,能够实现工业场景下的应用。(2)针对已有学者迁徙路线生成方法难以从学者论文映射学者地理位置信息、无法避免错误数据干扰、学者迁徙路线准确率不高等问题,提出了一种基于冗余和噪声的学者科研成果数据的学者迁徙路线构建框架ATraj RN,该框架可避免集成各类异源异构数据,高效地从学者科研成果数据中挖掘学者职业生涯。该框架提出了基于学者学术成就的定位算法PAAS(Positioning based on Academic Achievement of Scholars)、基于统计特征的深度学习模型的工作地点概率分布计算方法和迁徙路线生成算法等三项关键技术。ATraj RN能够充分利用资深学者冗余的论文与复杂的合作关系网络克服学者及机构命名消歧错误等引起的错误传播,并能够预测无科研产出年份学者的所在位置。实验表明,与已有的方法相比,ATraj RN在构建资深学者的迁徙路线上具有更高的准确率,且时间空间复杂度更低。自适应迁移学习在学者跳槽异常行为检测中的应用,能够方便的帮助我们识别命名消歧错误的学者,保障生成的学者迁徙路线的准确性。(3)针对学者跳槽行为难以预测的问题,提出了一种基于注意力机制的图神经网络模型SJHPre来从动态数据中预测学者的跳槽。该模型能够在复杂的科技大数据上对学者的历史工作序列和学者-学者合作关系图进行建模,不仅避免了大量异构数据的连接,而且解决了特征向量化和模型的嵌入问题。SJHPre模型引入注意力机制来产生注意力感知的特征,并引入了图神经网络来融合学者信息和不断变化的学者合作拓扑结构。这使得SJHPre模型能够很好地将学者信息和学术社交网络信息结合起来,而且它能够很好地学习其自身工作经历和合作者网络中存在的潜在表达,从而提升模型的精度。在两个真实的大规模开放数据集上进行的实验显示,SJHPre性能超越其他基线方法,进一步的实验探索了该模型下不同学者群体、模型参数等对预测学者跳槽行为的影响。(4)针对人工智能领域学者职业生涯相关信息深度挖掘的问题,提出了一套基于科技大数据的面向特定领域学者的职业生涯分析方法论。基于该方法论,首先构建了领域学术知识图谱,其次设计了研究趋势分析、学者时空关系探索和合作网络演变研究的数据挖掘与分析方案,最后提出了关键技术解决方案并分别进行了应用分析。对于研究趋势分析,首先设计了学术论文关键词识别与抽取算法,然后设计了从热门研究方向和热门技术演变两个方面的探索方法,最后探索了领域的研究随着时间演变的规律及走向。对于学者时空关系探索,首先在工作(2)、(3)和(4)的基础上设计了学者职业生涯时空信息挖掘算法,然后设计了学者的分布及流动性分析方法,最后结合学者的流动性及流动趋势揭示了它们与学者创造性的关系。对于合作网络演变研究,首先设计了基于共同署名论文的合作网络分析方法,然后基于“小世界”理论进行了定量与可视化分析,最后探索了流动性对合作关系的影响。本文分析和论证了人工智能领域自身发展的规律和趋势,为探索特定领域科学的发展规律提供了实证材料。
其他文献
复杂环境下对运动目标的检测与跟踪技术,作为智能交通发展过程中的重要技术之一而备受关注。然而在目前获取的路况视频中其大多数来自于传统固定摄像头,由于其存在灵活度低、安装成本较高等问题,使得所获取的路况视频无法满足复杂环境下运动目标的检测与跟踪。因此本文将无人机技术应用于车辆目标检测与跟踪中,通过无人机来获取路况视频,在此基础上研究运动目标检测跟踪方法。首先根据研究背景及需求对复杂环境进行重新定义,本
学位
麦麸是小麦粉加工业的一种可用且丰富的副产品,它富含多种营养素,如膳食纤维,蛋白质,矿物质,酚类和维生素等。其中膳食纤维,尤其是可溶性膳食纤维(SDF)对肥胖症、高血压、糖尿病、高血脂、心脏病及心脑血管疾病等有一定的预防作用。因此合理应用麦麸中的SDF越来越受到人们的关注。人们将注意力集中在麦麸酚类物质的研究以及挤压、粉碎和酶解等方式提高SDF提取率,而利用真菌固态发酵麦麸提高SDF提取率和发酵麦麸
学位
代谢综合征正在成为21世纪的主要医疗保健问题之一,并且与易患胰岛素抵抗的代谢器官的病理紊乱以及2型糖尿病(T2D)和心血管疾病有关。T2D及其并发症是世界上最受关注的内分泌代谢疾病。它们的特点是脂质、葡萄糖代谢和胰岛素功效紊乱,最终导致全身稳态紊乱。肠道微生物群可能通过发酵难以消化的膳食成分产生短链脂肪酸(SCFAs)来影响代谢表型。本研究首先研究了不同SCFAs对体外肝脂肪变性模型脂质代谢的影响
学位
学位
目的:分析1155例足月妊娠孕妇分娩时血清维生素A、E水平,探讨足月妊娠孕妇维生素营养情况及影响因素,为指导妊娠晚期及哺乳期合理补充维生素提供依据。方法:收集2018年1月1日至2019年3月31日深圳市第二人民医院中符合标准的足月分娩孕妇血清样本1155份,采用高效液相色谱法测定血清维生素A、E水平。结果:(1)不同年龄组间维生素A水平差异具有统计学意义(P <0.05)。高龄组足月妊娠孕妇血清
期刊
并购是企业实现成长的重要方式。随着中国经济进入高质量发展阶段,中国企业的国内外并购行为呈现持续增长态势。已有并购在促进企业成长的同时,也出现了盲目、跟风、套利等不当并购行为。因此,对企业并购行为进行研究,具有重要的理论和现实意义。近年来,随着知识经济、网络经济、平台经济的兴起,互联网行业的高科技企业并购尤为活跃。这些并购通常具有高溢价、高风险的特征。对这一特定类型的并购行为进行研究,对促进高科技企
学位
在临床实践中,中药与西药联合应用的情况非常普遍。药物联用常常会出现药物相互作用(Drug-drug interaction)。药物-药物相互作用可分为:①药动学DDI;②药效学DDI和③体外DDI。药效学DDI及体外DDI临床实践中比较容易获得,因此药动学DDI是目前研究药物体内相互作用主要切入口。药动学DDI一般包括药物在吸收、分布、代谢和排泄过程中相互作用。因为中药成分多且复杂使得中西药合用较
学位
20世纪上半叶中国美术经历现代转型的重要时期,现代美术教育也在萌芽发展,各地美术教育在此时呈现出多样性的探索实践,既有共性,又具特性。在广东——这一在近现代“得风气之先”的地方——美术教育亦然。本文以20世纪上半叶广东美术教育研究为中心,探索此时期美术教育的一些问题。广东美术教育在从传统走向现代的实践之路上作出过哪些努力?多股美术教育力量共同为人才培养开创出何种局面?成效与影响如何?本文分五章展开
学位
目的 探讨雌激素及其代谢产物的变化与子宫内膜非典型性增生发生的关系。方法 选择2019年1月至2020年1月河北医科大学第四医院收治的70例子宫内膜非典型性增生患者(非典型性增生组,再分为非肥胖组39例,肥胖组31例)及80例子宫内膜不伴非典型性增生患者作为观察组(不伴非典型性增生组,分再为非肥胖组45例,肥胖组35例),选择同期行体检健康绝经前妇女60例作为对照组(再分为非肥胖组30例,肥胖组3
期刊
脑疾病已经成为危害人类健康的重要疾病之一,其中脑肿瘤又以其高发病率和高危性越来越引起人们的关注。核磁共振(Magnetic Resonance,MR)成像是一种无损伤、无辐射、多参数的成像方式且不同模态MR图像对脑组织以及脑肿瘤特征的呈现各有侧重,从而利用多模态脑MR图像完整地分割出脑肿瘤区域进而提供肿瘤形状、大小等统计信息是一个主要研究方向。然而,脑肿瘤的特点与位置的不确定性以及MR图像中存在的
学位