词句篇三层级引文推荐模型研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户：wolaiye2

【摘要】

：

【作者】

：

俞垚

【机构】

：

厦门大学

【出处】

：

厦门大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

学术研究是一个不断探索和发展的过程,文献作为学术传播与交流的载体,具有重要意义。文献引用是证实主张与概念的重要任务,恰当的引用能够为文章提供充分的理论依据,也帮助读者正确理解文章的写作意图与思路。面对海量文献,引文推荐系统自动为输入文本推荐合适的文献,是一种高效快速的解决方案。根据引用上下文的差异性,引文推荐被分为全局与局部两个类别。但传统的局部引文推荐偏重学术研究价值,忽视了词级的实体引用与句子级的观点性引用在实际应用中的差异,且仅从作者角度出发,实用价值受限。对此,笔者主要完成两部分工作,一是从使用场景出发,将局部引用细分为词语（实体）和句子（观点）两个分支,并结合审稿人主观需求与客观统计结果,提出实体引用的解决方案,填补研究空白;二是对现有的引文推荐进行模型算法的优化。本文基于审稿人与作者的需求,从实际问题出发,根据上述各任务的粒度,构建词句篇三层级引文推荐模型,作为对现有分类体系的补充和优化。具体研究工作和创新如下:（1）词语层级,实体引用,匹配审稿人视角。基于实体引用占比约25%的统计结果,从审稿人的实体漏引核查需求出发,利用文献的引用记录,建立实体与文章的映射关系,并根据语义匹配与引用频次高低的加权得分返回推荐文献。实验结果显示,提出的方法与实体引用匹配度高;（2）句子层级,观点性引用,匹配作者与审稿人双视角。现有的局部引文推荐对于引用句定位仍待进一步研究,笔者针对文章中某句话是否需要引用,使用基于文献预训练的SciBERT构建判别模型,对包含引用的句子进行特征提取与学习。对比实验表明,构建的判别模型效果优于前人的方法,有效判别引用句;（3）篇章层级,整体性文献推荐,匹配写作者视角。本工作将图卷积网络引入篇章级引文推荐,构建编解码器结构的推荐模型,赋予点和边不同于前人方法的结构定义,并使用图卷积网络对二者进行特征编码,最后通过解码重构图,返回文献推荐列表。实验证明,构建的模型在篇章级别引文推荐任务上效果良好。

其他文献

基于集成学习的在线迁移学习算法研究

迁移学习（Transfer Learning）是研究如何利用其他相关领域已有经验和知识来帮助学习目标任务的方法。大多数现有的研究都是在离线数据之上进行的。而实际应用中常常需要面对在线场景下的学习任务,在这些问题中的训练样本均按一定顺序依次到来,通常无法直接获取或需要付出高昂的代价。因此进行有效的在线迁移学习算法研究具有重要的现实意义。但是,现有的在线迁移学习方法仅简单实现了将在线学习方法引入到迁移

学位

面向道路车辆的三维点云质量评价与补全研究

近年来,自动驾驶技术逐渐成为学术界及工业界研究的重点,而车载移动激光雷达获取到的三维点云数据,是智能车辆感知周围环境的关键信息。由于雷达传感器与物体的相对位置、物体的自遮挡与物体间的相互遮挡,使得采集到的数据中无法获得完整的车辆点云。为了更精准地感知环境,需要借助三维补全技术来获得更完整的、更高质量的点云数据。随着相关研究的逐渐深入,许多基于深度学习的三维补全模型相继出现,但这些研究大多在合成数据

学位

基于编码-解码模型的离线手写数学公式识别方法研究

数学公式在很多领域像科学研究、金融和统计中都有着非常广泛的应用。目前将数学公式输入到电子设备最常用的方式包括使用排版系统比如LaTex和公式编辑器比如MathType,但是这些方式都要求用户掌握大量的语法规则。还有一种方式是用户在手写设备上书写数学公式,这对于编写科学文档等需要使用大量数学公式的场景中更加有效便捷,因此实现手写数学公式自动识别的需求变得越来越迫切,同时随着智能手机和其他手写输入设备

学位

准噶尔东部晚古生代—中生代构造样式、变形序列及棋盘格构造的形成过程与机制

自晚古生代以来，准噶尔盆地东部经历了多期陆内变形事件的改造，形成了独特的棋盘状构造，其形成演化是中亚造山带陆内变形的一个缩影，但其形成过程仍处于争议之中。此次研究围绕准噶尔盆地及周缘地区的二叠纪至新生代的构造变形开展研究，结果表明准噶尔盆地东部变形的驱动力主要来自不同板块边缘的相互作用，尤其是来自特提斯构造域的影响。晚二叠世，准噶尔盆地遭受了近东西向的挤压应力改造，盆地整体发生变形，形成了一系列近

期刊

零售密集场景的目标检测算法研究

零售密集场景即超市货架图像,这些图像往往分辨率较高、包含众多商品目标。在这样的密集场景中进行精确目标检测依然是充满挑战的。在其它领域有优异表现的目标检测模型很难在不做改进的情况下直接移植到零售密集场景。因此,本文旨在提升著名的Faster R-CNN模型在零售密集场景的表现,主要工作概括如下:（1）针对标注信息浪费问题,提出多步骤采样的方法。该方法的作用是提高标注信息的利用率从而平衡正负样本。其中

学位

面向感兴趣区域的CS-MRI重建方法研究

面向特定感兴趣区域的磁共振成像对人们的诊断、治疗以及预后具有重要的价值和意义,是医学影像智能分析中的重要任务之一。磁共振成像受限于成像速度慢,而压缩感知技术能够从少量K空间采集数据重构出全采清晰图像来减少磁共振成像的数据采集时间,因此压缩感知磁共振成像重建受到了众多学者的关注与研究。在多数实际医学影像的应用场景中,医生往往只关注图像中人体组织或病灶等特定区域,这些特定区域富含丰富的辅助诊断信息。然

学位

基于注意力机制和深度度量学习的细粒度图像检索研究

近年来,细粒度图像成为了计算机视觉领域的一个热门研究方向。通过对当前主流细粒度图像检索方法的综合分析发现:如何获取图像的细节特征和提升特征鉴别力是众多研究方法关注的两个焦点。本文针对细粒度图像检索的两个焦点问题分别提出了解决方案。首先,为了获取图像的细节特征,本文提出基于注意力机制的特征提取框架,通过引入选择性内核注意模块,使得特征采集网络可以重点关注到图像的有效区域;同时,本文还设计了惩罚感知存

学位

针对推荐系统的托攻击

推荐系统作为信息过滤的重要手段得到了广泛的应用,但却面临托攻击的安全威胁。托攻击是指一些商家为了牟取利润,将一组伪造的用户配置文件注入推荐系统的训练数据中,目的是操纵其推荐结果。恶意攻击的存在威胁了推荐系统的有效性和公平性,要构建安全的推荐系统环境,必须深入研究攻击技术以做到知己知彼。现有的托攻击方法普遍存在攻击的可迁移性和隐藏性不足的问题。其中,可迁移性差是指攻击在某些受害者模型上无效,隐藏性差

学位

工业区块线政策下“工改工”类更新效益评价研究——以深圳宝安区为例

随着城市经济产业结构的升级,产业“退二进三”,制造业向周边区域扩散成为大城市普遍发生的现象。划定工业区块线成为保障工业发展空间、促进产业转型升级的主要应对方式。2018年,深圳市印发《深圳市工业区块线管理办法》,划定270km2的工业区块线,并限制工业用地转变为其他用途。在此背景下,“工改工”类城市更新逐渐成为旧工业区更新的主导。然而,工业区块线政策存在较大争议:区块线能否保障工业发展空间、能否减

学位

基于进化迁移优化的动态多目标优化算法

动态多目标优化问题是指多个优化目标互相冲突的优化问题,这些目标随着时间的推移而变化。因其需要在优化过程中快速准确地跟踪变化的帕累托最优集,所以这一类问题非常具有挑战性。进化迁移优化被证明是解决动态多目标优化问题的有效手段之一。然而,迁移优化技术存在着消耗计算资源大、负迁移等问题。为了解决以上问题,本文提出一系列基于知识迁移的动态优化算法。首先,为了提升迁移速度,减少种群多样性低引起的负迁移,本论文

学位

词句篇三层级引文推荐模型研究

与本文相关的学术论文