论文部分内容阅读
随着互联网应用技术的飞速发展,如今社交网络已经成为我们学习生活中一个重要的组成部分,用户通过社交网站,既可以浏览自己感兴趣的信息也可以发布自己编辑的信息。跟传统的社交平台Twitter类似,ResearchGate是一个社交网络服务网站,其为全世界的科研工作者提供了一个科研成果和学术分享平台,用户可以在ResearchGate上关注感兴趣的其他用户,也可以跟其他用户进行学术交流。因此,在这种学术环境中,如果能够帮助学生找到研究相关领域的导师或者帮助其他研究人员找到研究兴趣相同的同行,将会是非常有意义的。本文在已有研究的基础上,研究利用科研人员所发表的论文文本数据等信息构建用户兴趣模型并搭建科研合作者推荐系统:(1)在处理论文文本数据过程中,针对直接将隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型应用到文本数据中主题特征向量表述能力不足的问题,本文在文本特征筛选和主题特征扩展方面进行了深入研究,通过引入外部知识库维基百科,构建基于维基百科类别的词条特征表和LDA主题模型,分别用于对文本特征进行筛选和主题特征扩展,构建了基于维基百科的主题特征扩展模型,提高了文本主题特征向量的表现能力。并且在20newsgroup和NSF Research Awards Abstracts 1990-2003数据集上进行了验证试验,通过比较,证明了本文构建的主题特征扩展模型在表示文本特征上的有效性。(2)实现一个可用的科研合作者推荐系统。本文通过编写网络爬虫程序爬取Research Gate上的数据来获取用户信息,并探讨了网络爬虫的相关技术问题及解决方案。然后利用科研人员所发表的论文文本和关注关系等信息,基于主题特征扩展模型构建用户兴趣模型。最后利用所构建的用户兴趣模型,搭建了一个科研合作者推荐系统:针对学生,该合作者推荐系统可以用于推荐导师,针对其他科研人员,该推荐系统可以用于推荐相关同行。