基于SpringBoot与Vue框架的中文社科论文分析系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:zbz963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社科研究知识水平的发展,社科知识也在快速的更新迭代,论文库也随之日益庞大。在日益庞大的论文库面前,当研究人员希望全面了解某一领域的相关研究并在此基础上继续深造,前期往往要耗费大量的时间精力查找相关论文,甚至错过一些重要的发展方向。因此,提高论文的检索效率,以此提升科学研究生产力是一件非常值得研究的内容。另一方面,随着大数据时代的到来,数据挖掘,机器学习算法日渐成熟,自然语言处理技术也被广泛应用于文本提取,主题提取等相关方面,为使用自动化处理大批量的论文提供了技术上的支持。通过自动化而不是通过人力对论文进行检索分析,可以节省大量的人力物力,提高生产效率。本文针对目前国内社科论文分析研究所面临的问题进行了分析,同时结合目前对大数据文本方面处理技术的发展,提出采用Citation-LDA(Citation Latent Dirichlet Allocation)与BERT(Bidirectional Encoder Representation from Transformers)模型进行运算,同时与数据分析相结合的方法,对社科论文相关信息进行挖掘,整合与展示。Citation-LDA模型是基于引文的LDA模型,由于论文引文信息包含的信息较多且篇幅较小,使用引文信息来进行模型的运算可以大大加快运算的速度,同时降低了噪声影响。通过Citation-LDA模型,不仅能够发现论文主题,同时根据引用信息,还可以总结出主题流变以及发现主题下的里程碑论文。而BERT模型则从另一个角度来对文章主题进行挖掘。通过BERT模型,所有的论文都可以表示为一个词向量,而通过对词向量的聚类,可以得到主题相近的论文簇。通过对论文簇进行主题提取,可以得到所有的主题以及每个主题下的论文以及论文的排名。以上两种模型互相结合,能够较为准确的总结出论文与主题之间的关系。结合对论文其他相关信息的处理,最终可以向研究人员展示包括论文主题,主题流变与发展,论文作者研究领域,论文相关研究方向的里程碑论文等一系列深层次的信息,方便研究人员进行相关论文发展方向的探索。在结构方面,项目是一个web项目,主要采用Springboot进行项目的搭建,使用Elasticsearch来作为存储引擎,方便信息的快速查找。模型使用python脚本进行编写,模型运算结果储存在Elasticsearch以及文件系统中。前端方面则采用BootStrap框架与Vue.js框架来实现相关运算结果与数据的可视化。本文运用到的所有数据来源为南京大学数据中心以及社科类论文全文PDF文件。本人在项目中承担了数据分析中关联作者分析以及数据统计部分,分词训练,以及项目前端部分的设计与实现。
其他文献
综采放顶煤开采技术具有高效安全以及高产等优势,将成为今后国内厚煤层开采的重要技术。本文主要阐述了综采放顶煤开采技术的现状,并对其存在的问题和对策进行了相关分析。
本文简析了沥青混凝土路面裂缝产生的原因,并结合实践提出了相应的防治措施
本文从公路沥青路面的设计、监理、施工等方面探讨了提高沥青路面建设质量的途径。
原材料的优劣直接影响沥青混凝土路面质量,本文从路面工程质量控制着手,结合施工现场实践,总结了沥青混凝土路面原材料——沥青和集料质量的管理办法。
为防治山羊泰勒虫病,我们采用中国农业科学院兰州兽医研究所生产的"抗焦敏注射液",注射流行区农户饲养的绵、山羊1168只,其中2~6月龄羔902只,7~12月龄羊244只,成年羊22只。注射
目的研究尤瑞克林治疗急性分水岭脑梗死的临床疗效及对神经功能和生活质量的影响。方法选取我院2015年8月至2016年6月期间收治的急性分水岭脑梗死患者106例,采用随机数字法将
<正>法国护士打错针致病人死亡获刑 2008年09月14日新华网 2007年9月,33岁的女护士将可致人死亡的氯化钾误当成氯化钠,注射给了一名60多岁的肺癌患者,虽然这名护士很快就意识
会议
煤矿井下开采作业中,地质构造与地应力分布之间存在着一定的关系,本文主要通过案例分析对煤矿井下地质构造对地应力分布的影响进行了具体的分析和探讨。
随着经济的发展和社会的进步,促进电网规模的不断扩大,因此电力部门对地理空间信息有着越来越高的要求,目前缺陷较多的电网管理体制已经难以符合用户不断增长的用电需求,电力部门
在火力发电为主的今天,我们通过对电力企业各种电源的分析以及决策模型的探讨,分析了低碳要求下的电力调度方式,通过掌握二氧化碳和发电量之间的关系,找到了需要通过碳捕集技术才