【摘 要】
:
在学术领域中常常需要通过关键字对论文进行分析,关键字提供了高度概括性的论文信息,是对论文进行信息检索、自动分类、自动聚类和观点挖掘的基础。随着网络信息量的迅速增加,手工标识关键字费时费力且主观性强,因此论文关键字自动生成成为了研究热点。传统的关键字自动生成算法主要通过统计数据进行关键字生成,没有考虑到文本中的语义信息。随着深度学习和自然语言处理学科的快速发展,现今的关键字生成算法能够利用序列到序列
论文部分内容阅读
在学术领域中常常需要通过关键字对论文进行分析,关键字提供了高度概括性的论文信息,是对论文进行信息检索、自动分类、自动聚类和观点挖掘的基础。随着网络信息量的迅速增加,手工标识关键字费时费力且主观性强,因此论文关键字自动生成成为了研究热点。传统的关键字自动生成算法主要通过统计数据进行关键字生成,没有考虑到文本中的语义信息。随着深度学习和自然语言处理学科的快速发展,现今的关键字生成算法能够利用序列到序列框架和注意力机制来理解文本,从而进行关键字自动生成。由于近年来转换器(Transformer)在自然语言处理领域中取得了优异表现,与注意力相关的机制也得到了快速发展,这使得关键字自动生成算法在精确度和多样性方面有了可以进一步提高的空间。本研究将基于Transformer的序列到序列框架、拷贝机制和覆盖机制进行了结合,设计了关键字自动生成系统。本研究分为以下三步:首先,关键字集合被预处理为不同的关键字序列,并作为解码器的输入进行训练。其次,系统修改了原始Transformer的结构,应用拷贝机制和覆盖机制来减轻关键字不在预测词表的问题和关键字生成多样性问题。最后,系统通过束搜索对目标关键字进行搜索,平衡了关键字的生成时间和质量。本研究主要贡献如下:首先,系统能够对文本语义进行理解并预测出在原文中未出现的关键字。其次,系统使用了关键字自动生成任务中常用的五个数据集,并在关键字自动生成的能力方面超过了Copy RNN模型。最后,系统从关键字顺序和框架等不同方面对基于Transformer的关键字生成模型进行研究,并对实验结果进行了说明和分析。
其他文献
目的:研究术前炎性指标对结直肠癌根治性切除术患者的预后价值。方法:回顾性审查2015年1月至2016年12月于华中科技大学同济医学院附属同济医院胃肠外科一病区行结直肠癌根治性切除术的386例结直肠癌患者的医疗记录。收集术前一周内常规炎性指标,包括:术前外周血中性粒细胞数目、淋巴细胞细胞数目、单核细胞数目、血小板数目、以及纤维蛋白原和白蛋白水平;病理结果由病理报告查询获得并根据第8版AJCC指南重新
由于网络信息技术的不断成熟和飞速发展,在web应用、网络监控、传感监测、电信金融、生产制造等领域,兴起了一种新的数据密集型应用——流数据,即数据以大量、快速、时变的流形式持续到达。如何对这些流数据进行收集和计算,产生实际的经济价值,是近些年来网络技术研究的热点,并且电商网站中都有着数量庞大的商品信息,用户找寻到适合自己的商品无异于大海捞针,所以,开发一个在线商品推荐系统。这个推荐系统可以对用户浏览
在当今大数据时代,各种应用系统每天都会产生大量的日志数据,并且随着云计算与分布式技术的发展,这些日志数据往往分散于不同的服务器节点上。这使得对这些日志数据进行采集、存储以及可视化检索成为了一个难题。进一步来讲,通过这些分散的海量日志数据来解决系统故障以及挖掘其中的价值也变得越发困难。针对上述问题,对日志系统的相关理论进行研究,基于云加密系统,设计并研发了一个日志分析系统。基于云加密平台的日志分析系
社区作为我国最基层的单位组织,不仅是事故灾难的直接承受载体,同时也是第一时间承担事故应急救援任务的载体,在城市应急管理工作中发挥着至关重要的作用。对于社区而言,应急资源是应对风险的有力保障。当突发事件来临时,社区出现应急资源配置不足的情况,就会导致事故的连锁反应与进一步恶化。因此,对社区进行应急资源配置水平评估研究,对提升社区应急管理能力具有重要的实践意义。本文通过对北京市西城区、丰台区、密云区、
在欧氏空间中,曲面的弯曲程度由曲面的第二基本形式刻画,其具体含义为曲面的第二基本形式Ⅱ近似地等于曲面与切平面的有向距离的两倍.随着不定度量几何的发展,很多欧氏空间中的几何问题被推广到Minkowski空间.自然地,研究Minkowski空间中曲面的第二基本形式的几何意义就具有十分重要的意义.由于Minkowski空间中度量的不确定性,向量可以分为类空,类时及类光向量三类.根据Minkowski空间
曲线和曲面是微分几何学主要的研究对象,是微分几何学里重要的基础元素,而曲线是曲面的基础,在微分几何学里扮演着重要的角色.所以本文对三维欧氏空间中的特殊曲线进行研究,运用经典的微分几何方法,考察了一类具有特殊性质的曲线的曲率和挠率之间的关系.主要由以下几章构成:第一章简要回顾了几何的发展史,同时介绍了本文的主要内容.第二章首先介绍了欧氏空间中曲线的基础知识,然后介绍了一般螺线的定义与性质,最后给出了
随着纳米光电薄膜制备工艺越来越成熟,工艺监控对于薄膜光学常数和厚度测量的精度要求越来越高。光谱椭偏仪测量薄膜厚度和光学常数具有精度高、非接触性、非破坏性和测量速度快等优点。光谱椭偏仪系统模型通常假定平行光入射到厚度均匀薄膜上实现测量,因此薄膜反射前后的偏振光都假定为完全偏振光。然而在实际椭偏测量过程中,存在厚度不均匀、有限带宽、数值孔径和散射引起的退偏效应。由于薄膜非退偏光学特性建模计算光谱无法准
目的:探讨剪切波弹性成像技术对下肢深静脉血栓分期的应用价值。方法:选取106例下肢深静脉血栓患者(106条患肢),按照发病时间分为急性期组(发病时间 30 d,n=24)。运用剪切波弹性成像技术测量血栓的杨氏模量值,对各组的杨氏模量值进行组间统计学分析;运用ROC曲线分析得出不同时期血栓的杨氏模量值的截断点
党史学习教育开展以来,中盐吉林盐业有限公司党委结合公司实际,制定了活动方案,广泛征集群众意见,围绕群众“急难愁盼”问题,扎实开展“我为群众办实事”实践活动。截至目前,各项活动有序推进,并取得了阶段性成效。保障社会民生需求开展“学雷锋,进社区”志愿服务活动。3月5日,公司党委组织志愿者服务队前往永信社区,与地方党组织开展结对共建,开展“学雷锋,进社区”志愿服务活动。
随着中国在计算机芯片技术领域的不断发展,国内自主研发GPU领域更是创新不断。但由于参数没有进行系统的统计的原因,对于目前自主研发显卡与市面上流通的一般显卡在性能上有多大差距,相关研发人员并没有一个量化的认识。而市场上没有能支持自主显卡的基准测试系统,无法获得相关数据。因此设计一款能够覆盖包括自主显卡在内各式显卡,以及能够运行在各个常见PC操作系统上的基准测试系统是十分必要的。本文主要研究内容是显卡