【摘 要】
:
大数据时代的到来,加速了各行各业的快速发展,而随之也产生了大量的与学术研究相关的数据,由此,学术大数据应运而生。学者们在学术大数据的基础之上进行了大量的研究,但是却
论文部分内容阅读
大数据时代的到来,加速了各行各业的快速发展,而随之也产生了大量的与学术研究相关的数据,由此,学术大数据应运而生。学者们在学术大数据的基础之上进行了大量的研究,但是却很少有人通过研究学者学术生涯初期的学术表现来评估和预测该名学者在未来的学术表现,也即是本文提出的潜力学者挖掘。潜力学者挖掘可以用来作为聘用人才、发放和分配科研基金的凭据,开展潜力学者挖掘的研究具有十分重要的意义。本文是通过学者学术生涯初期的学术数据来评估和预测该名学者未来的学术表现,因此,本文工作主要分为以下两个方面:(1)基于GBDT的组合特征构造。本文从学者作为第一或者第二作者发表论文的时间作为该学者的学术生涯起始时间,并截取这之后5年的学者数据作为判断依据。选取了用于评价学者个人学术影响力的16个特征作为评判依据,以AMiner平台上学者数据集作为基础数据集,对其中缺失的数据通过MAG提供的接口进行了补充,并通过实验确定了最优正负样本比例为1:2。将处理后的学术数据训练GBDT模型获取最优的模型参数,然后将样本数据集通过训练得到的GBDT模型,记录下样本最终落在GBDT模型中树叶子节点的位置,通过one-hot编码构造出新的特征向量。(2)潜力挖掘模型的建立。将上述得到的特征向量作为Logistic回归的输入,通过网格搜索法和交叉验证的方式确定最优的Logistic回归模型参数,通过实验验证了本文提出的潜力学者挖掘模型的准确率达到了80.3%。选用单一的Logistic回归模型、GBDT和随机森林进行对比实验,通过对比实验显示本文提出的融合GBDT和Logistic回归的潜力学者挖掘模型在准确率(Precision)、召回率(Recall)和Fscore均要优于上述三个模型,说明了本方案的有效性和准确性。
其他文献
卷积神经网络(Convolutional Neural Networks,CNN)模型具有非常出色的学习能力,它将图像数据直接输入,在无需人工对图像进行预处理和额外的特征抽取等复杂操作的同时以其特
激光诱导击穿光谱技术作为一种元素分析技术,具有多元素联测、在线、原位分析等优点,在生物医学、环境监测、文物考古等多个领域都有非常重要的应用,随着激光器、光谱仪的快
随着计算机视觉技术在游戏、医学、测绘、虚拟现实等领域的广泛应用,基于图像的三维建模成为热门的研究方向。其中,被动式单目重建算法虽然流程复杂、运行时间长,但其扩展性
随着全球水资源缺乏及土壤与淡水盐渍化加剧,干旱、高盐等非生物逆境已经成为影响作物生长发育的主要因素,严重影响了作物的产量。因此利用转基因技术提高作物的逆境性是主要
氧电极反应包括氧还原反应(oxygen reduction reaction,ORR)和析氧反应(oxygen evolution reaction,OER)是不同能量转换和存储体系的重要反应,其反应过程复杂、能垒较高,通常需要
水声数据可视化是人类探索海洋世界的重要手段,在海洋资源探测、海底地貌勘察以及渔业领域等方面具有广泛的应用。随着GPU等并行处理技术的发展,绘制质量较高的直接体绘制技
分子泵抽速性能对于分子泵基础理论的研究和发展、性能改进以及配套的真空系统设计方法完善都极为重要,快速、准确、有效地对分子泵抽速性能指标进行测试已经成为真空泵行业
生物医学事件抽取技术,能够帮助研究人员快速地从大量生物医学文献中准确定位事件,并以结构化的形式表示,在药物研制、临床辅助诊疗、构建生物医学本体库等方面具有重要的研
蛋白质是组成人体一切细胞、组织的重要成分,研究表明很多疾病的发生都与蛋白质的二级结构异变有关。本文主要将表面等离子体共振技术与红外光谱技术相互结合,通过时域有限差
嵌段聚合物自组装是制备聚合物纳米材料的重要途径,嵌段聚合物发生微观相分离得到丰富的形态,自组装制备的纳米材料广泛的应用在微反应器、催化剂载体、药物控制释放等领域。