基于深度学习的科技文献引文推荐方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:a12c3d4e5f6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献资源是科技创新活动成果的主要表现形式,和传播科学技术知识的重要载体,也是进一步提升科技创新能力的基础源头和重要支撑,已成为国家宝贵的战略资源之一。在科技创新过程中,创新主体对本学科发展历史及趋势的了解,及与同行的有效学术沟通尤为重要,而查阅领域相关的科技文献则是实现该过程的最好途径。但获取的科技文献是否全面、内容是否相关将直接影响创新的成效。因此,支持创新主体对科技文献获取方法的研究具有现实意义和重大需求。现有科技文献的获取方法主要为“关键字”检索法,但该方法因受查找人人为因素及检索工具的影响较大,常常难以满足文献覆盖面及准确性的要求。由于科技文献数量巨大、种类繁多、分散孤立、动态异构、多样复杂,并具有极强的专业性、学术性和非结构化特征。现有方法因其对人为因素的依赖导致“关键字”设置的准确性难以保证,必然影响查找的效率及结果的全面、准确性。此外,基于“关键字”法的检索工具由于缺乏语义识别和匹配推理能力,也就无法支撑文献内容的语义理解和识别匹配,同样会影响文献获取的全面、准确性。为解决传统“主动查找”方式存在的过分依赖人为因素,检索工具缺乏匹配推理能力的问题,支持科技文献获取的文本推理匹配及引文推荐方法成为迫切需求和热点研究方向。为此,本文以国家重点研发计划课题“支持开放生态化的企业级云ERP平台研制与应用示范”(课题编号:2019YFB1704104)及“分布式资源巨系统及资源协同理论”(课题编号:2017YFB1400301)为研究背景,围绕课题基于数据驱动的智能服务技术提升科技资源融产业的目标,探索科技资源分享与服务模式,以课题任务要求的万方科技服务平台、宁波市科技信息研究院及东方灵盾专利服务平台中的文献资源为数据支撑,面向支持科技创新的文献获取应用,针对传统“主动查找”检索方式存在的过分依赖人为因素,检索工具缺乏匹配推理能力的问题,开展支持科技文献获取的文本推理匹配及引文推荐方法研究。具体内容如下:(1)对面向科技文本的匹配和引文推荐进行需求分析,分析了科技文献文本资源的特点,以及引文推荐的现状和问题,形成基于深度学习的科技文献引文推荐总体方案,该方案由基于深度学习的文本推理匹配方案和基于文本内容的两阶段引文推荐方案两部分组成,分别解决现有科技文献获取方法在文本推理匹配中存在的语义理解和内容完整性、准确性问题。(2)根据科技文献文本具有噪音大、专业词汇多、非结构化等特点,对科技文本进行去噪、分词、去停用词等预处理。为了能更好的对科技文本进行语义特征表示,使用word2vec技术训练文本的分布式词向量表达,为后续的文本推理匹配和引文推荐提供高质量的语义特征和数字化的文本输入形式。(3)针对现有科技文本推理匹配方法精准度不高、需要人工提取特征的缺陷,以及现有基于统计学的方法难以理解文本语义的问题,提出一种基于LSTM和CNN的文本推理匹配方法。该方法首先通过Bi-LSTM对需要匹配的文本进行语义向量化表示,然后采用Attention机制对文本进行交互式编码,最后通过多层的CNN网络对文本的交互式信息进行特征提取,从而获得文本的最终匹配度信息。通过实验,验证了本文的方法具有更好的效果。(4)针对现有引文推荐方法基于元数据和引文关系网络造成的缺乏文本内容语义信息的缺陷。提出一种基于文本内容的两阶段引文推荐方法,第一阶段通过文本的向量空间相似性产生相关的引文推荐集合,第二阶段使用文本推理匹配方法对候选集合进行语言理解从而获得更加精确的相关度的排序列表。实验结果表明,本文的方法具有更好的推荐效果。(5)为验证本文方法的适用性,选取科技资源服务平台上的部分数据进行实际验证,经过与现有方法对比,本文所提出的方法具有更好的效果,验证了本文方法的可行性。
其他文献
CAN是一种串行通信协议,开发之初主要用于连接汽车和卡车的传感器和电子模块,由于CAN总线数据传输的高可靠性,在各种电气领域上的应用越来越广泛。外部的雷击和ESD等电气瞬变会对CAN总线数据传输和硬件带来不可预知的损坏,因此,针对CAN总线就需要给出一系列的保护措施,比如在端口上加入TVS保护器件,基于此,文中重点开展了一款保护CAN总线的TVS二极管的设计和分析。主要工作如下:1、针对CAN总线
深度神经网络算法具有很高的精度,因此受到很多智能计算领域的关注。但是深度神经网络算法的高精度是以巨量的参数和计算量为代价的,这阻碍了大规模的神经网络算法应用在存储空间、能量和计算能力有限的智能硬件平台中。理论上,神经网络的剪枝技术可以大幅度的降低深度神经网络的数据规模和计算量。但是,由于经过剪枝处理的稀疏神经网络的数据具有不规则性,现有的硬件平台执行稀疏神经网络算法面临两个挑战。第一、数据的访存效
随着电子技术的发展,人们对于集成度高、效率高、功能多的的工业电子产品的需求越来越大。半桥变换器由于其结构简单,电压应力小于其它隔离式拓扑,在输入电压高于开关管耐压的场合有着广泛应用。本文着重于输出低电压大电流场景的应用,研究与设计了一款集成同步整流技术、应用于半桥拓扑的PWM控制器。本文回顾了PWM控制技术的原理和控制方式,由于电压型模式的抗噪能力强、调试电路较简单,故选择了电压型模式。并且为了提
人工智能的快速发展,使得工厂的生产方式日益智能化,人机交互在生产过程中的应用越来越广泛。语音是人机交互的一种重要方式。现如今语音识别技术已经逐渐成熟,在无噪音的场景下可以准确识别大多数语音指令。然而,工厂的环境不是安静的,会掺杂复杂多变的噪声,这对于语音人机交互会产生严重的干扰,降低语音识别准确率和生产效率。语音增强技术用于将纯净语音从带噪语音中分离出来,提高目标语音的清晰度和可懂度,从而保证人机
随着计算机技术与通信技术的不断进步以及传感器设备的不断发展,工业领域中的传统制造不断向智能制造进行着转变。其中,工业领域中物料搬运系统的发展与通信系统的发展是智能化转变中的重要组成部分。传统的物料搬运系统一般以AGV作为运输工具,但是传统的AGV存在许多问题,例如状态数据监控数据量大、不能进行实时环境建图以及共享性差等问题。针对这些问题,本文以AGV为研究对象,通过阿里云平台、ROS以及Kafka
AGV运输系统具有移动载物、安全避障等多种功能,在智能制造中的作用越来越大。AGV在企业制造加工过程中可以灵活搬运各种物料,降低企业人力运输成本,实现物料仓储的完全智能化流程管理,缩减仓储物流费用。本文以智能化制造过程中的AGV路径规划与调度作为主要研究目标,使生产系统能够获得更高的生产效率,从而减少作业成本,提升企业效益。本文介绍了AGV的研究背景以及意义,对国内外关于AGV的研究现状以及路径规
近年来,基于卷积神经网络(Convolutional Neural Networks,CNN)的机器视觉方法已成功应用于安防检测和目标检测等应用。随着CNN模型的改进,计算和存储的需求急剧增加。然而,在一些低功耗的边缘计算设备中,功耗是重要指标,这便限制了卷积神经网络算法对低功耗设备的支持。现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)具有可配置性和开
卷积神经网络是一种以卷积运算为主的前馈神经网络,在图像识别、音频识别等领域有着广泛的应用。随着卷积神经网络的不断发展,其内部权重参数和网络深度也不断增多,对算力提出了更高的要求,CPU和GPU难以提供如此算力,因此人们更加倾向于开发专用的卷积神经网络加速器。而传统的卷积神经网络加速器往往采用冯诺依曼架构,超过80%的功耗被消耗在数据的搬运过程中,因此不管是学术界还是产业界都逐渐将目光投向非冯诺依曼
随着第三代宽禁带半导体SiC材料和微型传感器技术的发展,SiC电容式压力传感器的应用领域越来越广泛,涉及的环境应力也越发复杂和恶劣。目前,国内外的研究聚焦于SiC电容式压力传感器的成品工艺实现、关键结构试样制备、仿真几何模型构建、输出特性优化、单一静态环境应力、静态综合应力及频域综合应力仿真等方面。对SiC电容式压力传感器在长时间高温环境应力、大量级压力疲劳环境应力及时域综合环境应力的影响研究较少
随着产业的发展移动机器人的应用场景随之增多,这同时也对移动机器人在复杂路面上安全避障与越障的可靠性提出了更高的要求。由于移动机器人在众多行业中存在实验性、定制化的特点,在对其进行可靠性分析与仿真实验过程中存在着数据不足与依靠研究者主观经验导致的不确定性,这影响了可靠性分析与仿真的准确度与可信度。因此如何在小样本与存在认知不确定性等条件下对移动机器人进行可靠性建模与仿真验证,保障分析结果的可信度是论