【摘 要】
:
随着科学研究的飞速发展,每年全球范围内都会涌现出大量的学术论文。如果能够准确预测发表时间较短的论文在一段时间内的引用次数,就可以帮助学者在面对众多的文献资料时减少自身的搜寻成本,同时提早发现更具影响力的论文。因此构建有效的新发表论文的引用次数预测模型具有重要的实际研究和应用价值。目前已有多种文献计量特征和统计方法被用于引用次数预测任务中。此外,学术论文的引用网络特征和文本信息对引用次数是有影响的。
论文部分内容阅读
随着科学研究的飞速发展,每年全球范围内都会涌现出大量的学术论文。如果能够准确预测发表时间较短的论文在一段时间内的引用次数,就可以帮助学者在面对众多的文献资料时减少自身的搜寻成本,同时提早发现更具影响力的论文。因此构建有效的新发表论文的引用次数预测模型具有重要的实际研究和应用价值。目前已有多种文献计量特征和统计方法被用于引用次数预测任务中。此外,学术论文的引用网络特征和文本信息对引用次数是有影响的。然而,现有的引用次数预测研究未能利用和有效地将其结合在一起。针对以上不足之处,本文提出了一种基于图注意力网络(Graph Attention Network,GAT)的新发表论文引用次数预测模型GARU。通过利用本领域相关论文的文本内容和引用网络来提取论文的语义特征和空间结构特征,之后将其输入图注意力网络GAT模型,GAT模型根据论文之间的语义相似性利用注意力机制来分配不同论文之间的权重,进而捕获论文之间的相互关系,输出得到特征矩阵,同时借助门控循环单元(Gate Recurrent Unit,GRU)来提取论文之间的引用次数分布模式,使用注意力机制将二者进行融合以有效捕捉论文的各种信息,最后通过引入加权损失函数使模型更关注高引用次数的论文并借此训练模型并用以平衡不均衡的数据分布,该模型可以仅利用新发表论文的元数据特征,如摘要、题目和参考文献等相关特征提取语义和空间特征来预测刚发表后5年的引用次数。本文通过在Aminer和Web of Sciences数据库平台上的人工智能领域数据集上进行验证,实验结果表明,在没有任何引用次数年数可以用的情况下,预测未来五年引用次数的均方根误差(RMSE)、平均绝对误差(MAE)分别为16.05和6.26,借助文本本身的元数据特征仍可以识别54%的高引用论文,证实了其在预测引用次数和识别高引用论文任务上有着较高的准确度,进一步研究发现在新发表论文可利用引用次数年数增加的同时,预测效果得到了提升。在有前三年引用次数可以利用的情况下,该方法与四种基准方法中表现最好的方法相比,预测未来五年引用次数的均方根误差(RMSE)、平均绝对误差(MAE)等指标平均下降了1.38,0.59,在高引用论文识别任务识别上比表现最好的基线模型提升了16.67%。同时在实验过程中也发现了一些不足之处,未来打算在以下方向对模型进行优化和改进,一篇论文的引用次数是许多因素的结果,如参与的机构和研究人员、出版地,以及许多其他不被摘要中的文字所包含的这类因素。由于这些系统性的因素,改进引用次数预测结果需要未来整合更多关于这些学术网络的数据。
其他文献
信息科技高速发展给传统产教融合共享型基地建设提供了转型升级的良机。但各大“双高”院校对于融合建设共享型基地尚处于探索期,文章阐述了产教融合共享型实训基地建设现状和意义,以福建船政交通职业学院为例,探讨了“双高”视域下融合建设共享型基地的建设思路和运行实践方法,为高职院校开展轨道交通产教融合共享型实训基地建设提供参考。
针对传统的PLC控制实验中实验设备质量大、价格高、占地面积大和维护困难等缺点,提出了一种PLC与组态软件相结合的设计方法.在组态软件中创建虚拟模型作为被控对象,代替实际被控设备,采用虚拟的被控对象即可检验PLC控制程序的正确与否.采用西门子S7-200PLC与力控V7.0组态软件相结合的方法搭建虚拟仿真实验系统,为PLC的实验教学提供了有利补充.以5层电梯为例,给出了PLC控制虚拟仿真实验系统的开
目的 探究益气活血方治疗消化性溃疡伴焦虑抑郁状态“异病同治”的临床效果。方法 选取该院2020年7月—2021年6月收治的60例消化性溃疡伴焦虑抑郁状态患者,将其随机均分为两组,参照组患者接受常规西药治疗,研究组则在此基础上应用益气活血方治疗,分别于两组患者治疗前以及治疗后4周对两组患者SAS、SDS量表评分及血清CCK、Ghrelin的数值水平进行对比。结果 治疗前两组患者血清CCK、Ghrel
在自动化诊断设备中,对于样本的准确识别是检测的基础,样本的识别实际就是对样本盛放的容器类型的识别。目前国内几乎所有的自动化诊断设备,医用样本容器识别均需要医院检验科医师的人工干预,这种人工操作会带来检测报告出错及操作人员感染等风险。现有自动化诊断设备使用的图像识别技术,是通过使用相机和卷积神经网络来实现的,其识别正确率在99.5%以上,但其价格高昂,且对硬件资源要求非常高,所以需要自主研发一套“小
近年来,深度神经网络模型在图像分类、目标检测、语音识别、自然语言处理等人工智能应用领域都取得了巨大的成功。然而,深度神经网络模型是一种高度复杂的计算模型,其训练需要大量的数据集、高昂的算力成本和优秀的算法思想。由于深度神经网络模型具有极高的商业价值,因此其版权保护显得尤为重要。为了确保深度神经网络模型的版权得到充分的保护,需要采用数字水印技术、加密技术、访问控制技术、安全传输技术和安全存储技术等多
本报告是以Jef Verschueren提出的“顺应论”为指导,对法国认知神经学家Stanislas Dehaene 的科普著作How We Learn:Why Brains Learn Better Than Any Machine...for Now部分章节进行英汉翻译实践的总结。科普文本作为科技文体的分支,是我国第四次翻译浪潮中重要的翻译对象。不同于一般的科学论文,科普著作的目的在于普及科学
超高层建筑在施工期所受荷载与临时支撑体系多变,应变变化过程复杂,在运营期内受到环境温度影响产生温度应力,易对结构产生影响。因此,在超高层建筑的施工与运营阶段布置结构健康监测系统进行长效的结构安全状态评估非常必要。结构健康监测系统大量传感器的数据采集与传输是个耗时的巨大工程,不可避免的会由于设备或者环境因素导致监测数据异常或缺失,进而影响结构安全性能评估的准确性。现有主要的缺失数据恢复方法在应用于超
随着城市道路交通的发展,道路噪声污染日渐成为大众关注的问题,控制并减少交通噪声污染所产生的危害,一直是交通噪声治理研究的热点。交通噪声主观烦恼度已成为治理道路交通污染的重要依据之一,评估交通噪声烦恼度通常有主观实验方式和客观预测方式:主观实验方式通常采用社会调查或者在实验室进行测听测试直接获得主观烦恼度,可靠性高,但是往往需要耗费大量的人力和物力;客观预测方式通过提取声学特征并通过模型映射预测主观
异化作为马克思思想中的重要组成部分,在其之后的卢卡奇、法兰克福学派等后继者中依旧占有重要地位,时至今天人工智能异化、时间异化等新的阐述与思考仍是学科研究主流。在马克思异化理论视域下进行数字异化的批判与超越研究,既是对马克思主义发展性的重要体现,同时也坚持理论关注现实,在数字异化的批判超越中丰富马克思异化理论。对于数字异化的批判超越研究,首先以数字化时代科技发展对传统异化的扬弃功能,指出作为新的重要
在极力提倡低碳环保、生活水平日益提高的大背景下,新能源汽车、电子产品得到迅猛发展,迫切需要开发出高容量、充电快、安全环保的锂离子电池负极材料。硫化亚锡(SnS)因晶格间距大(4.04?)、理论比容量高(1138 m Ah g-1)、嵌锂电位安全(1.411 V)等优点受到广泛关注。然而,大的体积膨胀和低的电导率导致SnS具有较差的循环性能。大量研究表明,SnS与导电性好的碳纤维复合是解决上述问题的