论文部分内容阅读
为探究并约束科研论文基金不实标注的现象,本文提出了基金与论文相关性判别模型。以国家社会科学基金项目及其资助论文为数据源,首先基于word2vec模型计算了基金标题与论文标题及摘要间的相似度,通过对相似度计算相关性证明了基金内容与其资助论文在大规模数据分析上存在差异;其次通过人工审核低相似度的数据发现了部分基金不实标注的案例;最后设计了基金与论文研究内容相关性检测模型。模型在检测基金与论文不相关案例时效果优越,查准率超过99%,其中,以Transformer作为编码器的模型的查全率和F值分别达到89.13%