【摘 要】
:
科学研究能够带领社会走向更加科技化的生活信息时代,科学家们在各个领域发表了大量的论文,论文中的创新点能推动社会的进步。科研工作者在发表论文的同时也会引用其他文章,一些开创性的文章也会变成被许多后来的科研人引用成为高引文章。许多论文能引导未来的研究者更深一步的思考,文章中新颖的产出也可以去引领科研未来的方向。本文开发了一套算法,可以自动地理解、识别描述对应的被引论文,不仅可以帮助在写论文时能够减少作
论文部分内容阅读
科学研究能够带领社会走向更加科技化的生活信息时代,科学家们在各个领域发表了大量的论文,论文中的创新点能推动社会的进步。科研工作者在发表论文的同时也会引用其他文章,一些开创性的文章也会变成被许多后来的科研人引用成为高引文章。许多论文能引导未来的研究者更深一步的思考,文章中新颖的产出也可以去引领科研未来的方向。本文开发了一套算法,可以自动地理解、识别描述对应的被引论文,不仅可以帮助在写论文时能够减少作者查询时间,还能在对论文理解的领域中有所帮助。本文以信息检索为基础,提出了基于两步骤多模型的论文引文匹配算法。论文引文匹配算法总共包含了两个部分,一个是基于融合文本召回算法的论文引文匹配召回算法,一个是基于树与预训练模型的论文引文匹配算法。在召回侧中,提出了解决大规模引文初筛的召回策略,利用词向量的weighted Boosting的算法和weighted bag-of-gram的算法,做到了精确并快速的召回。在基于树与预训练模型的论文引文匹配算法中,利用经过优化的特定领域的预训练模型对论文引文进行匹配,同时,还在不借助外部数据的情况下开发了一套基于论文引文特征框架的梯度提升决策树算法,并在最后的阶段利用模型的差异性做了集成学习,将两者模型融合到一起。该算法也获得了 WSDM CUP 2020年的第一名。
其他文献
随着中国互联网的发展和普及,视频应用的需求得到爆发式的增长,手机直播、网络视频等成为重要的传播媒介和新的互联网经济增长点。无线视频传输是移动互联网时代视频传输的主要方式之一。然而,在无线传输的情景下,移动智能设备能源和无线传输信道都是非常紧缺的资源。现有的解决方案分别是从视频编码和传输协议设计来对无线视频的传输进行优化,但是,现在广泛应用的视频编码方案的帧内预测和帧间预测算法的计算代价过高,对于计
农田水利工程是当代农业发展的根本动力,关系着我国农业能否长远稳定发展,同时对农田水利建设稳定用水、实现水资源利用最大化具有十分重要的作用。然而,笔者在调查中发现,目前农田水利工程规划设计中存在工程规划设计前期没有实地勘察、设计与实际情况差异较大等一系列问题。基于此,笔者深入分析了农田水利工程规划设计中存在的问题,提出了加大施工前的实地考察力度、科学分析农田水利灌溉规划设计、强化农田水利工程的监管力
随着信息化社会的逐渐深入,云计算技术作为计算机领域的前沿技术之一,也在逐渐迈向成熟。在云计算模式中,为用户提供各种服务的通常为虚拟机集群,这些虚拟机是通过虚拟化技术切割物理机产生的。虚拟机集群由云平台统一管理,按需分配的模式不仅简化了管理人员的工作流程,也使资源得到了充分利用,更是推动了桌面云和应用云的普及。用户只需要在本地终端安装云客户端便可借助远程桌面协议轻松访问云端的应用资源和桌面资源。云客
随着知识图谱越来越受到大众的欢迎,各大公司都在争先恐后地把自己的数据存储到图数据库引擎上,与此同时,数据的分析与挖掘也慢慢变得重要了起来。然而对数据的挖掘需要使用大量不同类别的数据进行交叉分析,而不同类别的数据就涉及到了由不同团队负责维护的数据,通常情况下这些数据并不在同一台服务器上,甚至使用了不同的数据库来存储这些异构数据。如果对这些数据进行挖掘则要将这些数据整合起来进行分析。然而,很少有完善的
由于深度学习模型的准确率大大提升,近年来在很多领域发挥了重要的作用,保持高准确率的同时如何提升模型的鲁棒性成为了一个重要的课题。深度学习模型中训练不充分、过度线性化的特性会导致模型对某些样本分类错误,这种样本由攻击者添加了特殊的扰动,且人眼难以辨别,它的存在大大威胁了深度学习的广泛应用,这种样本被称为对抗样本。为了抵御这种对抗样本的攻击,研究者们主要采取了改动模型的网络结构、对抗样本检测和将对抗样
频率选择表面(Frequency Select Surface,FSS)是使用周期性的相同(或存在略微差异)金属结构均匀的排列在某种衬底上实现的周期性阵元,其经常被运用于频率选择器,空间滤波器,和雷达散射截面缩减的应用中,通过单元的周期性排列,可以实现对相位和频率信息的调控和重构。在一些特定的情况下,可以实现与相控阵表面相同的功能,并且相比相控阵天线较为复杂的功分器和馈电网络,加载的大量放大器,移
随着软件系统在现代社会中越来越普遍,如何避免软件缺陷所带来的影响从而保证软件系统的稳定运行也越来越重要。软件缺陷预测可以利用目标项目数据来预测软件系统中哪些部分可能存在缺陷,工程师在此基础上合理安排保证软件质量的有限资源就可以极大地减少缺陷对软件系统的影响。在目标项目可用数据不足的情况下,跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)已经成为了一种预测软
随着大数据的迅速发展,大数据给人们带来巨大经济效益的同时,也为大数据分析和挖掘带来了技术上的挑战。大数据基础平台技术繁琐,特别是依托于X86系列处理平台的计算框架特性各异,接口种类繁多,这极大地提高了基于大数据计算平台的智能业务应用开发者的技术难度。如何提高智能业务应用开发的效率,使得基于大数据平台的应用创新能够根据实际业务需求形成可靠的软件及服务,是摆在各行各业大数据应用创新软件服务商面前的一个
随着知识图谱和图计算的兴起与发展,对于超大规模的图数据处理分析逐渐成为了业界关注的热点问题。与传统关系型数据不同的是,图数据通过顶点和边来表示实体以及实体之间的关系,从而展现出由点到面的网状结构。在对图数据进行处理时,往往会从一个顶点开始,向周围的顶点和边不断地迭代计算,为了能够支撑超大规模图数据的存储及其相关的数据处理,分布式图数据库应运而生。在现有的分布式图数据库中,通常采用的都是计算和存储分
随着技术发展,如今我们已进入到了5G时代,除了日常通讯使用外,智能手机在日常生活中所扮演的角色也越来越重要。而在移动端设备的市场占比中,Android系统的占有率成为了全球第一,与之相对应的是应用软件的爆炸式增长,再加之该系统的开源特性,恶意应用软件的数量也随之增加,这使Android系统所面临的安全问题也越来越严峻,如何有效的对Android恶意软件进行检测成了近年来许多研究人员的研究课题。到目