论文部分内容阅读
随着科学研究的飞速发展,积累了海量的学者用户属性信息和学术行为信息,这为学者用户画像构建提供了更多的数据基础,也带来了更高的挑战。本文首先介绍了学者用户画像相关的研究背景和现状,接着深入分析相关技术,将学者用户画像模型划分为画像基本信息抽取、学者兴趣标签发现、未来学术影响力预测三个模块,分别提出相应的模型并进行实验评估。最后,采用分布式存储与并行计算框架实现上述模型,构建了一个基于多源异构大数据的学者用户画像原型系统。本文的研究工作主要包括以下几个方面:(1)提出了一种基于双向长短期记忆网络和条件随机场的学者画像信息抽取模型(PAE-NN)。相比以往研究提出的基于CRF的抽取模型,该模型通过深度神经网络自动提取文本的字符级和上下文特征,实现了模型的端到端训练,同时有效地解决了抽取实体间的长时期依赖关系问题,提高了学者基本属性信息抽取的精度。(2)构建了一种融合文本语义信息和学术网络关系的学者兴趣标签多分类模型(LDANE)。不同于已往研究只是单一采用文本挖掘或标签传播方法,该模型将所有学术实体的文本语义信息统一整合到主题模型中,同时利用大规模网络表征学习方法对学术异构网络连接结构进行特征提取,最后结合Stacking方法进行特征融合,提升了兴趣标签发现能力。(3)设计一种学者未来学术影响力预测模型(XG-RWTA),并结合分类筛选算法使模型适应数据长尾分布特性。该模型考虑论文发表的时间和作者署名顺序的因素,提出基于网络随机游走的学者影响力评估方法(RWTAModel),并将该特征融合到学者未来影响力预测模型,有效地应对了长周期预测的难题,提升了预测效果。(4)基于Hadoop、Spark和TensorFlcw等大数据分析框架对上述用户画像模型进行实现,设计一套基于多源异构数据融合的分布式系统架构,实现了一个基于大数据的学者用户画像的原型系统。