论文部分内容阅读
科技大数据一般特指与科学技术领域相关的大尺度数据,该类数据具有科学性、系统性、严谨性以及传承性等特点,蕴含一定科学技术发展规律。科技大数据中不仅包含了科学发展的历史进程以及技术演变的趋势和规律,还蕴含了学者职业生涯流动的历史和走向。基于科技大数据的学者职业生涯研究能够很好地发掘学者个体及群体在时间、空间、研究兴趣、合作关系上的演变与趋向。然而,该领域是随着大数据及人工智能时代的来临而兴起的,尚处于早期研究阶段,仍有许多问题并未探索;另外,一些关键性的技术问题尚未突破,例如,如何实现研究机构的消歧、如何构建学者的迁徙路线、如何对学者的职业生涯进行建模并预测其未来趋势、如何将学者职业生涯发展应用于学科领域的探究、如何对特定场景下学者流动规律探索等。针对该领域的一些关键性的技术问题及需要探索的部分重点问题,本文进行了一系列的研究和实验,主要研究成果包括:(1)针对既有机构命名消歧方法难以处理不断增长、变化的科技大数据的缺陷,提出了一种基于知识图谱中实体链接的机构命名消歧框架ELAD。该框架具有减少人工干预、建立机构实体间联系以及有效描述实体、学习知识图谱知识等优点。ELAD主要包括候选集生成算法和结果选择算法两个子模块。候选集生成算法(Candidate Generation Algorithm)主要通过语言模型向知识图谱中的实体映射建立论文的隶属字符串与可能机构实体之间的连接,并以此生成一个涵盖所有可能候选机构的实体集合。结果选择算法通过引入LCS(Longest Common Subsequence)和MED(Minimum Edit Distance)等算法将每个候选集结果的可能性映射到一个概率空间中,利用信息熵原理选择最有可能的结果来获得最可能的机构实体。在真实数据场景下的实验结果显示,该框架各项性能指标均优于传统方法,且对知识图谱的请求不会随着数据量的增长而线性增长,能够实现工业场景下的应用。(2)针对已有学者迁徙路线生成方法难以从学者论文映射学者地理位置信息、无法避免错误数据干扰、学者迁徙路线准确率不高等问题,提出了一种基于冗余和噪声的学者科研成果数据的学者迁徙路线构建框架ATraj RN,该框架可避免集成各类异源异构数据,高效地从学者科研成果数据中挖掘学者职业生涯。该框架提出了基于学者学术成就的定位算法PAAS(Positioning based on Academic Achievement of Scholars)、基于统计特征的深度学习模型的工作地点概率分布计算方法和迁徙路线生成算法等三项关键技术。ATraj RN能够充分利用资深学者冗余的论文与复杂的合作关系网络克服学者及机构命名消歧错误等引起的错误传播,并能够预测无科研产出年份学者的所在位置。实验表明,与已有的方法相比,ATraj RN在构建资深学者的迁徙路线上具有更高的准确率,且时间空间复杂度更低。自适应迁移学习在学者跳槽异常行为检测中的应用,能够方便的帮助我们识别命名消歧错误的学者,保障生成的学者迁徙路线的准确性。(3)针对学者跳槽行为难以预测的问题,提出了一种基于注意力机制的图神经网络模型SJHPre来从动态数据中预测学者的跳槽。该模型能够在复杂的科技大数据上对学者的历史工作序列和学者-学者合作关系图进行建模,不仅避免了大量异构数据的连接,而且解决了特征向量化和模型的嵌入问题。SJHPre模型引入注意力机制来产生注意力感知的特征,并引入了图神经网络来融合学者信息和不断变化的学者合作拓扑结构。这使得SJHPre模型能够很好地将学者信息和学术社交网络信息结合起来,而且它能够很好地学习其自身工作经历和合作者网络中存在的潜在表达,从而提升模型的精度。在两个真实的大规模开放数据集上进行的实验显示,SJHPre性能超越其他基线方法,进一步的实验探索了该模型下不同学者群体、模型参数等对预测学者跳槽行为的影响。(4)针对人工智能领域学者职业生涯相关信息深度挖掘的问题,提出了一套基于科技大数据的面向特定领域学者的职业生涯分析方法论。基于该方法论,首先构建了领域学术知识图谱,其次设计了研究趋势分析、学者时空关系探索和合作网络演变研究的数据挖掘与分析方案,最后提出了关键技术解决方案并分别进行了应用分析。对于研究趋势分析,首先设计了学术论文关键词识别与抽取算法,然后设计了从热门研究方向和热门技术演变两个方面的探索方法,最后探索了领域的研究随着时间演变的规律及走向。对于学者时空关系探索,首先在工作(2)、(3)和(4)的基础上设计了学者职业生涯时空信息挖掘算法,然后设计了学者的分布及流动性分析方法,最后结合学者的流动性及流动趋势揭示了它们与学者创造性的关系。对于合作网络演变研究,首先设计了基于共同署名论文的合作网络分析方法,然后基于“小世界”理论进行了定量与可视化分析,最后探索了流动性对合作关系的影响。本文分析和论证了人工智能领域自身发展的规律和趋势,为探索特定领域科学的发展规律提供了实证材料。