【摘 要】
:
近年来,随着信息技术的突飞猛进,特别是移动互联网与智慧移动终端的迅速发展和普及,新词汇新知识也不断孕育而生。对于科学研究领域来说,随着不同学科的迁移应用与相互融合,逐渐衍生出不少新的交叉学科。过去数据库或检索工具中的单一分类方法难以对这些频繁出现在交叉学科中的课题或方向进行定位与发现。如何对这些交叉学科中的频繁项进行合理描述和高效发现成为一个棘手的问题。本文提出了一种基于深度学习产生科技文献描述符
论文部分内容阅读
近年来,随着信息技术的突飞猛进,特别是移动互联网与智慧移动终端的迅速发展和普及,新词汇新知识也不断孕育而生。对于科学研究领域来说,随着不同学科的迁移应用与相互融合,逐渐衍生出不少新的交叉学科。过去数据库或检索工具中的单一分类方法难以对这些频繁出现在交叉学科中的课题或方向进行定位与发现。如何对这些交叉学科中的频繁项进行合理描述和高效发现成为一个棘手的问题。本文提出了一种基于深度学习产生科技文献描述符的方法,再结合自适应参数的聚类算法,用于描述和发现一批交叉学科中频繁出现的课题和研究方向。本文的主要工作如下:1、分析传统的文本特征提取算法的优劣性,并详细阐述了基于深度学习的文本特征抽取和分类网络的流程与优势;介绍了本课题为提升神经网络模型分类准确率而使用的其他方法,例如引入注意力机制和数据增强等;对传统聚类算法的特点进行总结,分析各自的优缺点。2、设计了新的科技文献描述符,以“多标签+关键词”作为一篇科技文献的描述符。通过构造不同深度学习模型完成短文本(标题和)到多标签的非线性映射,使用词频方式对长文本(正文)抽取关键词作为多标签的补充信息。其中,基于统计分布的方式,确定多标签概率向量的阈值;设计深度学习模型的对比实验,并完成调优,并对不同结果进行了详细分析。3、设计改进的自适应参数DBSCAN聚类算法。通过核密度估计实现参数对区间的限定,并使用轮廓系数进一步完成优化,实现参数对的自适应选择;此外,使用数值模拟方法对密度估计函数作逼近,以提升算法效率;设计仿真实验,完成改进算法的正确性和可行性验证;使用知网数据,完成科技文献频繁项的聚类发现测试,并通过展示案例,分析聚类结果的合理性。经过对比实验与模型调优,本文设计的BERT+Highway+GRU多标签分类网络,最终F1值为0.8740。而基于核密度估计和轮廓系数的自适应参数DBSCAN算法在验证阶段的聚类效果也符合预期,证明了改进算法的正确性与合理性;对实际数据的聚类效果也具有一定价值。本文以“多标签+关键词”作为科技文献的文本描述符涵盖信息准确且语义丰富;通过数值模拟得到的核密度估算函数和轮廓系数优化在聚类测试时也表现出高效性与可靠性。通过两批知网实际数据测试,证明本文提出的算法框架能有效的获取一批交叉学科中的频繁出现的相关研究课题与方向,且具有良好的可迁移性和可用性。本课题的部分研究成果现已部署与应用于北京市某研究所,旨在为知网等科技文献平台提供自动的多标签标注功能,方便做下一步的推荐、检索与分类,同时也能降低维护与管理的人力成本。就应用的初期阶段来看,本课题成果具有较好的实用性。
其他文献
电影院作为一种西方舶来品,由西方传入中国后,就不断地在发展壮大,并成为21世纪上半期最耀眼夺目的娱乐场所。随着电影院数量的不断增加,各电影院间的竞争力也在逐渐加大,电影院提高竞争力的方法是要重视消费者对其的认知程度及评价。很多电影院已经开始在实际销售中尽可能满足消费者的感官需求,即视觉、嗅觉、听觉、味觉及触觉需求,其目的在于有效增强自身竞争力。而这种吸引消费者的感官注意,给消费者全方位立体的服务体
淡水资源作为人类生活的必需品,淡水资源的匮乏已成全球最为关注的难题之一。开发利用非常规水资源,将大量的含盐废水进行有效淡化,是进一步解决全球淡水资源严重短缺的根本
交通系统作为一个庞大的公共设施,其安全性关系着整个社会的经济脉象和安全运转。为了维护公路交通的安全性,对路面状态进行及时全面的隐患排查是一项非常重要的工作。由于我国公路运输量大、负载沉重,路面上每天都会产生大量的损坏。裂缝是最常见的路面损坏。它不仅会降低道路的行车安全,还会对自动驾驶系统的物理层安全造成威胁,甚至还会大幅度地缩短道路的安全使用年限。如果路面裂缝得不到及时的修补,就可能会酿成重大的安
随着物联网技术的兴起和5G通信时代的到来,芯片需要满足更高和更复杂的性能要求,这给设计工作带来了极大的挑战。很小的失误便会造成巨大的损失,因而芯片验证的工作愈发重要。传统的验证办法效率较低,可复用性较差,因此验证成本高且覆盖率不足。近年来,以System Verilog验证和UVM(Universal Verification Methodology)为代表的高层次抽象验证技术有效提升了验证效率,
多径效应导致雷达接收的回波信号幅度大幅衰减,严重影响雷达对目标的参数估计性能。通过抑制或分离多径信号可减轻多径效应的影响,然而,低信噪比条件下该类算法适用性较差,并且多径信号中同样包含目标的参数信息,因此,本文从利用多径信号的角度出发讨论如何提高多径环境下的雷达参数估计性能。时间反演技术能够自适应地实现空间和时间聚焦,可有效利用多径信号,通过将回波信号进行时间反演操作并重新发射,发射信号与传输信道
我国物流业发展势头比较迅猛,这个现象主要源自于我国国民经济的强势进步。但随之而来的是物流活动所造成的资源环境问题。作为物流产业中规模庞大、运输路线覆盖面积较大的
贫困是人类社会发展永恒的话题,普遍存在于世界各地和各个历史发展的阶段。缓解贫困和消除贫困始终是人类社会所面临的艰巨任务。我国贫困问题严重,反贫困任务艰巨,随着扶贫
随着“双一流”概念的全新提出,我国对高等教育综合实力的重视程度日益增强,其培养质量日益受到国家及社会各界的重视,如何培养出专业能力和实践能力兼具的综合型人才成为很多高校重点关注的问题。鼓励高校、科研院所、企业和政府等主体参与到协同育人的培养过程中,对综合型人才的培养有着不容小觑的作用。通过激发各方主体的独有资源,使高校研究生在协同育人培养机制中可以更好的成为专业能力和实践能力兼具的综合型人才,同时
如今,我国已成为世界第二大经济体,其中非公有制经济对经济总量做出了巨大贡献。轻工业和第三产业的经营主体主要是民营企业,并且如今有很多的民营企业走向了世界,比如吉利、格力、美的、华为、小米、阿里巴巴、滴滴等。在这种创业型企业取得巨大经济回报的同时不仅给社会创造出了大量的就业机会,而且为政府创造了大量的税收以及给相关领域带来了大量的技术创新。2017年底,民营企业在税收、GDP、技术创新及带动就业方面
随着科技的飞速发展,信息技术越来越广泛地应用于语言教学中。人们现在基于网络技术研发了应对英语写作的自动评分系统,用以对英语写作进行自动批改和反馈。该系统具有便利、