基于领域表示的审稿人分配问题研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:softwareuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类科研需求和科研成果的爆炸式增长,大量的科学文献需要发表。面对如此庞大的稿件数量,如何在众多领域各不相同的候选审稿人中为每位研究者提交的稿件找到合适的审稿人是学术界共同面对的难题。传统的人工为稿件寻找审稿人的方法无法应对如此巨量的稿件和领域繁杂的审稿人,这将产生极高的成本和出错率。二十一世纪以来,越来越多的期刊和会议采用自动分配审稿人的方式。与人工为稿件分配审稿人类似,自动分配审稿人研究的关键在于对稿件和审稿人领域的识别,以及稿件和审稿人之间精确的领域匹配。这种对领域的识别与匹配的研究同时可以带来其他应用价值,如,问题回答者匹配、专家发现、自然语言理解任务等等。审稿人分配的研究一直基于自然语言处理的研究成果,并在此基础上做出适应于审稿人分配特点的改进。由于领域的识别与匹配对审稿人分配非常重要,因此自然语言处理中的潜在语义索引方法被提出后,审稿人分配的研究开始发展。领域的识别与匹配通常以显式领域的形式出现,即通过特定信息直接表示特定领域,比如基于主题模型和语言模型的方法。然而在实际分配中,由于审稿人信息由多篇论文构成,而稿件由一篇论文构成,导致在审稿人和稿件之间存在信息的不平衡。这种不平衡具体体现在2个方面:一是审稿人每个领域包含的文本信息要多于稿件,这是文本信息的不平衡性;二是审稿人所有的领域信息要多于稿件,这是领域信息的不平衡性。本文通过改进审稿人与稿件之间的相似度计算方式来减少文本信息不平衡性带来的影响,通过对审稿人与稿件之间和审稿人论文与稿件之间的相似度进行随机游走来减少领域信息的不平衡性。另一方面,目前的领域挖掘方法只能从通用的角度获取论文的近似领域,而这种近似领域难以和特定的论文领域相吻合。本文利用论文中标题与摘要领域的一致性作为监督信息来进行隐式领域的学习,从而避免了需要主观经验假设(归纳偏置)来推断领域的特征。本文的主要工作如下:1)提出一种基于词和语义的分配模型(WSIM)。该方法分别将稿件和审稿人看成一篇和多篇论文的集合,同时使用主题模型和语言模型以提取稿件和审稿人的领域特征。首先,本文在使用语言模型提取词信息的过程中,降低了无意义高频词的权重并提高了有意义低频词的权重,这不仅能够突出词信息的特殊性,而且能够和语义信息有效的结合。然后,文本针对审稿人和稿件在文本信息上的不对称性,引入归一化折损累计增益(NDCG)作为相似度计算方法解决该问题。最后,本文针对审稿人和稿件在所有领域信息上的不对称性,一种成对随机游走的方式让审稿人和审稿人论文之间的领域特征相互迭代以解决该问题。此外,本文在真实数据集上与7种方法对比,实验结果验证了该方法的有效性。2)提出一种基于句对的分配模型(SPM-RA)。该方法利用论文中标题与摘要领域的一致性作为监督信息,从而可以使用需要监督信息的神经网络模型学习论文之间的领域关系。论文的标题和摘要之间存在非常严密的逻辑,因此本文假设论文标题和摘要的领域是一致的,从而可以用论文中标题和摘要的关系作为知识,避免了审稿人分配问题中缺乏真实推荐标签的困难。首先使用卷积神经网络(CNN)和BERT(Bidirectional Encoder Representations from Transformers)训练论文标题和摘要之间的对应关系。然后通过不同标题和摘要之间的相似度来得到论文之间的相似度,最后为稿件推荐审稿人。最终实验表明,该方法高效可行。在真实数据集上的实验表明,该方法好于WSIM。
其他文献
茶树多酚氧化酶(PPO)是一类含铜氧化还原酶,是红茶加工中品质形成的关键酶。本研究克隆了茶树PPO基因家族,优化了PPO诱导表达条件,定量分析了茶树PPO基因家族在不同品种、不
论文将北洋政府时期北京主要大学的韩人留学生作为研究对象,通过调查分析近代中、日、韩三国的相关史料,采用实证主义方法对北京韩人留学生进行考察,以阐明这一时期北京韩人青年的留学状况及其留学意义。北京作为中华民国初期的首都,交通便利,高校众多。北洋政府时期北京的高等教育不仅在数量上、更在办学质量上取得了一定突破,成为中国近代大学的开端。不仅如此,北洋政府成立后,实行教育改革,使得北京具备了较好的留学环境
目的 改良以树脂包埋多块不脱钙小鼠胫骨的方法,探索对树脂包埋不脱钙骨组织切片时预防脱片的有效方法。方法取15只13周龄的雄性B6小鼠,间隔3天腹腔注射钙黄绿素2次,并于第2
近年来,特高压行业的迅猛发展,为输变电设备市场带来巨大利润的同时,极大程度上引领着输变电设备的发展方向。压气式SF6断路器因其优良的开断性能与绝缘性能,在高压开关市场
目的:近几年碳青霉烯耐药的肺炎克雷伯菌(carbapenem-resistant Klebsiella pneumonia,CRKP)在临床微生物室的检出率急剧增加,已成为继鲍曼不动杆菌之后的又一世界范围内医院
随着人工智能的迅速发展,计算机视觉中的图像识别问题已成为研究热点,而基于子空间学习的方法在图像识别领域占据重要地位。基于子空间的学习算法是一种经典的降维方法,这类
运动目标检测主要目的是从视频序列的背景中提取出运动的目标。在智能视频监控技术中,运动目标检测处在最底层,是理解和分析图像内容最关键一步。此外,运动目标检测的精度对后续目标识别、行为理解等起着至关重要的作用。近年来,基于矩阵低秩稀疏分解方法受到学者们高度关注,并成功运用在运动目标检测上,但是在复杂环境和极端条件下,其算法的鲁棒性较低,且检测的目标区域信息不完整。例如,当监控场景在黑暗、浓雾、遮挡等条
离子源自身研究的复杂性和应用区域的多样性,使得离子源的研究一直持续受到人们的关注,不同的设计要求和应用对象都导致离子源技术的不断进步。铯离子源作为较中性源常在研制
近年来,为了满足通信网络系统日益增长的需求,多种通信传输新技术得以快速发展,其中分布式天线系统(Distributed Antenna System,DAS)和终端直通(Device-to-Device,D2D)通信
无线能量传输(WPT,Wireless Power Transmission)由于不受电导线的约束,具有诸多潜在的应用场景,如太阳能卫星系统、边远或危险地方的无线输能、基于WPT系统的浮空平台通信基