论文部分内容阅读
随着人类科研需求和科研成果的爆炸式增长,大量的科学文献需要发表。面对如此庞大的稿件数量,如何在众多领域各不相同的候选审稿人中为每位研究者提交的稿件找到合适的审稿人是学术界共同面对的难题。传统的人工为稿件寻找审稿人的方法无法应对如此巨量的稿件和领域繁杂的审稿人,这将产生极高的成本和出错率。二十一世纪以来,越来越多的期刊和会议采用自动分配审稿人的方式。与人工为稿件分配审稿人类似,自动分配审稿人研究的关键在于对稿件和审稿人领域的识别,以及稿件和审稿人之间精确的领域匹配。这种对领域的识别与匹配的研究同时可以带来其他应用价值,如,问题回答者匹配、专家发现、自然语言理解任务等等。审稿人分配的研究一直基于自然语言处理的研究成果,并在此基础上做出适应于审稿人分配特点的改进。由于领域的识别与匹配对审稿人分配非常重要,因此自然语言处理中的潜在语义索引方法被提出后,审稿人分配的研究开始发展。领域的识别与匹配通常以显式领域的形式出现,即通过特定信息直接表示特定领域,比如基于主题模型和语言模型的方法。然而在实际分配中,由于审稿人信息由多篇论文构成,而稿件由一篇论文构成,导致在审稿人和稿件之间存在信息的不平衡。这种不平衡具体体现在2个方面:一是审稿人每个领域包含的文本信息要多于稿件,这是文本信息的不平衡性;二是审稿人所有的领域信息要多于稿件,这是领域信息的不平衡性。本文通过改进审稿人与稿件之间的相似度计算方式来减少文本信息不平衡性带来的影响,通过对审稿人与稿件之间和审稿人论文与稿件之间的相似度进行随机游走来减少领域信息的不平衡性。另一方面,目前的领域挖掘方法只能从通用的角度获取论文的近似领域,而这种近似领域难以和特定的论文领域相吻合。本文利用论文中标题与摘要领域的一致性作为监督信息来进行隐式领域的学习,从而避免了需要主观经验假设(归纳偏置)来推断领域的特征。本文的主要工作如下:1)提出一种基于词和语义的分配模型(WSIM)。该方法分别将稿件和审稿人看成一篇和多篇论文的集合,同时使用主题模型和语言模型以提取稿件和审稿人的领域特征。首先,本文在使用语言模型提取词信息的过程中,降低了无意义高频词的权重并提高了有意义低频词的权重,这不仅能够突出词信息的特殊性,而且能够和语义信息有效的结合。然后,文本针对审稿人和稿件在文本信息上的不对称性,引入归一化折损累计增益(NDCG)作为相似度计算方法解决该问题。最后,本文针对审稿人和稿件在所有领域信息上的不对称性,一种成对随机游走的方式让审稿人和审稿人论文之间的领域特征相互迭代以解决该问题。此外,本文在真实数据集上与7种方法对比,实验结果验证了该方法的有效性。2)提出一种基于句对的分配模型(SPM-RA)。该方法利用论文中标题与摘要领域的一致性作为监督信息,从而可以使用需要监督信息的神经网络模型学习论文之间的领域关系。论文的标题和摘要之间存在非常严密的逻辑,因此本文假设论文标题和摘要的领域是一致的,从而可以用论文中标题和摘要的关系作为知识,避免了审稿人分配问题中缺乏真实推荐标签的困难。首先使用卷积神经网络(CNN)和BERT(Bidirectional Encoder Representations from Transformers)训练论文标题和摘要之间的对应关系。然后通过不同标题和摘要之间的相似度来得到论文之间的相似度,最后为稿件推荐审稿人。最终实验表明,该方法高效可行。在真实数据集上的实验表明,该方法好于WSIM。