【摘 要】
:
构建学术知识图谱是文献检索工具和学术影响力分析等应用的基础,虽然现在已有许多构建的大型学术知识图谱和学术搜索平台,但构建知识图谱中学术实体的准确性仍然有待提升,在学术实体构建中,作者消歧、机构消歧、学术词新词发现和分类体系构建是其中比较困难的任务。针对作者消歧问题,本文提出了一种基于异构网络的无监督作者姓名消歧方法。通过对学术实体名称预处理减弱文本格式不一致的影响,用异构网络上的元路径随机游走方法
论文部分内容阅读
构建学术知识图谱是文献检索工具和学术影响力分析等应用的基础,虽然现在已有许多构建的大型学术知识图谱和学术搜索平台,但构建知识图谱中学术实体的准确性仍然有待提升,在学术实体构建中,作者消歧、机构消歧、学术词新词发现和分类体系构建是其中比较困难的任务。针对作者消歧问题,本文提出了一种基于异构网络的无监督作者姓名消歧方法。通过对学术实体名称预处理减弱文本格式不一致的影响,用异构网络上的元路径随机游走方法学习文献结构特征,用基于TF-IDF和随机打乱词序的词向量构建方法学习文献文本特征,融合相似度后用DBSCAN聚类、合并孤立文献实体方法完成作者消歧。实验表明,该模型比AMiner模型的F1值相对提升了3.51%,并被应用于项目中2400万篇文献数据的作者消歧任务。此外,对于机构消歧问题,本文提出了一种基于文本特征的无监督学术机构名称消歧方法,首先构建了世界城市位置关系表,用位置和词库信息补全缺失的英文全称,用翻译方法补全中文名称,然后用中文名称常用后缀统计和信息熵修正中文名称,用基于相似度的方法修正英文全简称错误对应和中英文错误对应,最后用结合数量词、拼音词、位置词、词向量的基于文本特征的LSTM模型完成学术机构消歧。实验证明,该模型比Link KG模型的F1值相对提升了1.33%,并被应用于项目中600万个学术机构名称的消歧任务。最后,本文提出了一种少标注的学术词分类体系构建方法,用基于规则的方法切分中英文混合的摘要文本,用基于文本统计特征的方法新词发现和同义词合并,用BERT与Text CNN方法、word2vec与fasttext词向量和注意力机制,融合通用知识和领域知识对学术词筛选和分类,根据分类结果完成学术词分类体系构建任务。实验证明,该方法比STGCN方法准确率相对提升了1.50%。
其他文献
开放共享观念的出现,科研项目开始利用开放存取的科研数据,推动了开放科学研究的起步和发展,这一现象也受到各国政府机构和科研机构的关注与重视,越来越多的学者开始研究科研数据服务的理论与实践现状。研究主要集中在对科研数据管理的理论研究和以问卷或网络调研的科研数据服务实践现状的研究,通过研究对我国高校实际的科研数据服务提出简要建议,而对服务模式的研究相对欠缺。本研究的研究方法为文献调研、网络调研、案例分析
分析型数据库通常需要在大规模数据集上高效完成复杂查询处理,主要包括查询优化和查询执行。作为现代分析型数据库最重要最核心的功能,查询处理涉及的代码范围广,处理逻辑复杂,导致测试的高成本,缺乏充分和灵活的测试可能导致在生产环境中出现严重的问题。现有针对查询执行正确性验证的工作存在负载质量不高,理想结果集(验证集)获取难度大等问题。常见的标准评测基准比如SSB、TPC-H由于缺乏数据的倾斜度和负载的多样
异构多核系统由于包含不同类型的计算单元,从而可以灵活地执行不同类型的计算任务,提高了复杂嵌入式系统的计算性能。现在FPGA加速器正在被集成入异构多核系统。和通用处理器使用指令集执行任务不同,FPGA使用其上的硬件计算资源CLB(Configurable Logic Blocks)来执行任务,但是FPGA上的硬件计算资源是有限的,因此在集成FPGA的异构多核系统上调度任务时应考虑这一点。本文提出了一
锂空气电池因具有极高的能量密度成为科研人员研究的热点。但是锂空气电池在实际应用中仍面临着许多困境:绝缘性的放电产物导致较高的充电过电势,从而造成库伦效率的下降;电池反应中高反应性的单线态氧(~1O2),易与电解液和电极材料发生副反应,导致电池性能衰减;空气中非氧气的成分造成锂空气电池发生复杂的反应,因而大多数锂空气电池都只能在纯O2环境下运行。本文从锂空气电池面临的实际问题出发,以阐明其副反应机理
随着大数据时代的到来,数据对于企业和个人的价值已经显得越来越重要,而将数据作为商品进行交易已经成为了企业和个人所关注的焦点。但数据与传统的商品具有很多的不同点,这使得数据的交易不能够简单的套用传统的电商行业的模式,如何能够安全、公平的交易数据商品成为了业界和学界都关注的问题。在传统的电商领域中,都存在一个买卖双方都认可的中间方,例如,淘宝、亚马逊就充当了这一类角色。但在数据领域,这样的权威的中间机
随着大数据时代的到来,信息量成指数型增长。推荐系统作为一种筛选信息的工具,已经成为人们日常生活中不可或缺的一部分,它可以为人们在大量的数据中筛选出他们感兴趣的信息。近些年,伴随着社交网络的兴起,融合社交关系的推荐算法引起了研究者的广泛关注。社交推荐算法通过结合用户间的社交关系,丰富了用户的偏好特征,从而为用户推荐其好友喜欢的物品集合。近年来,图卷积网络凭借着强大的图表征学习能力得到了广泛关注。基于
在物联网技术广泛应用的今天,资源受限设备下的加密算法即轻量级加密算法的安全性强度受到越来越多人的关注。ARX(addition,rotation,XOR)型分组密码由于算法结构简单,软硬件实现便捷,非常适合用于保障物联网环境中的信息交互。由于ARX型结构的特殊性质,差分分析和线性分析对于ARX型密码算法都不能产生较好的攻击结果,但在众多ARX型密码算法的最好攻击结果中,差分-线性分析方法都榜上有名
随着大数据时代的到来,数据存储的重要性变得越来越高,多地域备份的分布式数据库数量逐渐增加,而开发具有正确性、可扩展性和容错性的分布式数据库非常困难并且耗费人力。RAMP(Read Atomic Multi-Partition,基于读原子性的多分区)事务作为一种常见的事务,被广泛应用于分布式事务系统设计的研究中。然而,当前由RAMP开发人员提出的两个多备份RAMP事务设计PHR(Prepare-F
共享单车作为一种便利环保的出行形式,近年来受到了广泛关注,而共享单车的流量预测是研究共享单车分布动态演化并对单车进行合理调度管理的关键技术,对于解决当前城市中共享单车分布不均匀的问题至关重要。但是如何准确高效地预测共享单车流量仍然是一个困难的问题,传统的流量预测方法难以处理当前海量的单车骑行数据,并且在解决较大规模地区内的时空相关性问题上还是有所欠缺。针对上述问题,本文提出一种基于时间-空间地图模
超光栅是一种可以使光沿着特定的衍射级方向传播的二维光学结构。由于构成超光栅的所有纳米粒子都相同,所以超光栅的调控对象是光栅所支持的各个衍射级。近年来,对超光栅的各项研究表明,光栅方程仅仅给出超光栅能支持的所有衍射级,但无法决定一束光将具体选择哪一个衍射级作为出射方向。也就是说,光栅结构这一反映粒子阵列整体行为的元素,无法圆满解释超光栅现象,所以需要更多关注组成超光栅的每个粒子的光学性质,回归到局域