论文部分内容阅读
随着社科研究知识水平的发展,社科知识也在快速的更新迭代,论文库也随之日益庞大。在日益庞大的论文库面前,当研究人员希望全面了解某一领域的相关研究并在此基础上继续深造,前期往往要耗费大量的时间精力查找相关论文,甚至错过一些重要的发展方向。因此,提高论文的检索效率,以此提升科学研究生产力是一件非常值得研究的内容。另一方面,随着大数据时代的到来,数据挖掘,机器学习算法日渐成熟,自然语言处理技术也被广泛应用于文本提取,主题提取等相关方面,为使用自动化处理大批量的论文提供了技术上的支持。通过自动化而不是通过人力对论文进行检索分析,可以节省大量的人力物力,提高生产效率。本文针对目前国内社科论文分析研究所面临的问题进行了分析,同时结合目前对大数据文本方面处理技术的发展,提出采用Citation-LDA(Citation Latent Dirichlet Allocation)与BERT(Bidirectional Encoder Representation from Transformers)模型进行运算,同时与数据分析相结合的方法,对社科论文相关信息进行挖掘,整合与展示。Citation-LDA模型是基于引文的LDA模型,由于论文引文信息包含的信息较多且篇幅较小,使用引文信息来进行模型的运算可以大大加快运算的速度,同时降低了噪声影响。通过Citation-LDA模型,不仅能够发现论文主题,同时根据引用信息,还可以总结出主题流变以及发现主题下的里程碑论文。而BERT模型则从另一个角度来对文章主题进行挖掘。通过BERT模型,所有的论文都可以表示为一个词向量,而通过对词向量的聚类,可以得到主题相近的论文簇。通过对论文簇进行主题提取,可以得到所有的主题以及每个主题下的论文以及论文的排名。以上两种模型互相结合,能够较为准确的总结出论文与主题之间的关系。结合对论文其他相关信息的处理,最终可以向研究人员展示包括论文主题,主题流变与发展,论文作者研究领域,论文相关研究方向的里程碑论文等一系列深层次的信息,方便研究人员进行相关论文发展方向的探索。在结构方面,项目是一个web项目,主要采用Springboot进行项目的搭建,使用Elasticsearch来作为存储引擎,方便信息的快速查找。模型使用python脚本进行编写,模型运算结果储存在Elasticsearch以及文件系统中。前端方面则采用BootStrap框架与Vue.js框架来实现相关运算结果与数据的可视化。本文运用到的所有数据来源为南京大学数据中心以及社科类论文全文PDF文件。本人在项目中承担了数据分析中关联作者分析以及数据统计部分,分词训练,以及项目前端部分的设计与实现。