基于单词实体联合嵌入的集体实体链接方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xxxx000456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非结构化自然语言文本数据通常是有歧义的,尤其是命名实体。一个命名实体可以有多个名称,一个名称也可以表示几个不同的命名实体。实体链接任务即,将非结构化文本数据中对应实体链接到结构化知识库中,这有助于对原始的嘈杂文本数据的信息挖掘,以早日实现语义Web的愿景。
  目前关于实体链接任务的研究主要基于统计模型,需要依赖人为定义的关于文本和目标实体的歧义性特征。这些特征通常需要拥有该领域知识的专家来定义,并且可能无法捕获所有相关的统计依赖性和交互作用。神经网络模型能够自动学习数据特征,并且在编码语义和处理数据稀疏性方面拥有突出优势。因此,设计了基于神经网络的实体链接模型,以便自动学习特征及其组合。首先构建了基于扩展Skip-gram的单词实体联合嵌入学习模型,以将单词和实体共同嵌入到低维向量空间,并作为后续的实体链接模型的输入。单词和实体嵌入压缩了语义含义,避免人工提取特征。然后,构建神经网络模型来自动学习提及-实体的语义相似度和实体对的一致性这两种特征。接着将集体实体链接任务建模为条件随机场模型以组合这两种特征。最后,分别进行实验测试提出模型的效果。实验结果证明,提出的单词和实体联合嵌入学习模型能够很好地学习出单词和实体语义信息,并联合实体链接模型在AIDA数据集上达到91.87%的微观F1分数。
其他文献
信息时代飞速发展,给人们生活带来便利的同时也带来了信息过载。推荐系统作为一种重要的工具在各种在线平台上为消费者带来了极大的便利。神经网络和注意力机制在自然语言处理等序列任务上有着突出的表现,因此也被迅速应用到了推荐系统中。神经网络相关的推荐算法主要是通过多层感知机来获取用户的总体偏好,而注意力机制相关的方法则主要利用其能够获取序列重点的特性来实现用户序列推荐。这些方法在隐式反馈推荐上分别取得了很好
学位
信息化时代,人们可以接触到大量信息,但相应地也给人们选择感兴趣的信息带来巨大挑战。伴随着信息爆炸,推荐算法得到了学术界和工业界的广泛关注。现代推荐系统的两个核心:一是学习用户和项目的嵌入(即将用户和项目转换为矢量化表示),二是对交互建模,其基于嵌入重建历史交互。作为现代推荐系统的核心之一,研究更好的学习用户和项目的潜在嵌入表示的方法非常有意义。  为了更好的学习用户和项目的潜在特征表示,设计和实现
学位
无服务计算,又被称为“函数即服务”,是云计算领域正兴起的一个事件驱动服务模型。在无服务模型中,应用由被单独执行和管理的函数组成,由用户请求触发并动态执行。目前,云服务提供商普遍采用容器或虚拟机来执行这些函数,在无服务模型中的函数通常执行时间很短(毫秒级)的情况下,容器和虚拟机的启动用时给响应用户请求带来了较高的延迟。同时,不同函数间的通信基本上依靠网络设备和共享内存完成,导致了很高的性能开销。  
学位
基于语义的用户意图识别问题属于自然语言处理问题的范畴,其本质上为一个多分类问题。随着互联网发展,人机对话系统的发展也越来越迅速,需求越来越明确,近年来得到学术界和工业界的重视。而人机对话系统中用户意图识别是很重要的模块,其准确性的提高对于系统生成合理回答有重要的意义。  目前意图识别的大部分方法都是基于语义,通过分析文本内容然后应用深度学习算法得到多分类结果。比如使用循环神经网络、长短期记忆网络以
在当今信息大爆炸的时代,各式各样的信息令人目不暇接。这不可避免地导致信息过载,使得人们在检索自己感兴趣的信息时存在一定困难。因此个性化推荐系统的重要性不言而喻。现有的推荐算法大多数都基于协同过滤,而协同过滤算法的主要不足之处在于其难以应对数据稀疏性问题。此外,协同过滤算法仅利用用户与物品的交互信息进行建模,其所挖掘的隐式信息仍不够充分。大多数相关方法仅关注显式或隐式信息中的一种,导致推荐的准确度并
学位
混洗(Shuffle)是连接映射(Map)端和聚合(Reduce)端的桥梁。混洗服务的可靠性和性能直接影响到应用程序的执行效率。现有的混洗机制,在内存中聚合数据时,容易产生数据溢出,造成写放大。Reduce任务在拉取数据时,会产生大量小的,随机的I/O请求,I/O队列等待时间和磁盘寻道时间占据了整个磁盘服务时间的很大一部分开销。  D-Shuffle是为解决上述问题而设计的一种计算和存储分离的混洗
随着互联网的不断发展,人们在享受网络带来的便利的同时也深受信息过载的困扰。推荐系统能够有效地缓解信息过载问题,是当前研究的热点。协同过滤算法作为目前被普遍使用的推荐算法而备受关注。协同过滤算法基于喜欢相同物品的用户有类似的喜好的思想实现对用户的推荐。最近,随着深度学习的兴起,在推荐系统领域也出现了很多利用深度学习解决推荐问题的研究,其中就包含很多基于深度学习的协同过滤方法。这些方法大多使用深度神经
学位
随着网络数据承载的信息量越来越大,如何从网络结构中挖掘有价值的信息成为近些年研究的热点。网络表示学习可学习网络的结构表示,用低维矩阵保留其结构特征。但现实网络中的节点间往往不只有一种关系类型,如何从异质边网络中挖掘复杂结构的信息相比同质网络更具挑战性。  正则化图自编码器网络表示模型(Regularized Graph Auto-Encoder, RGAE)用于学习异质边网络的网络表示。该模型将异
随着信息技术的快速发展和智能设备的不断普及,人们对人机交互(Human–Computer Interaction, HCI)方式的高效性和便捷性提出了更高的要求。基于惯性传感器的手势识别(Hand Gesture Recognition, HGR)技术只需用户手持设备并绘制简单的手势即可传达复杂的机器命令,而不需要分散用户的视觉注意力,并且这种方式不受外界环境噪声、光照强度等条件影响,因而更适合被
学位
提升大规模图数据处理的效率对解决诸多现实问题具有重要意义。可编程逻辑门阵列(Field Programmable Gate Array,FPGA)因其可编程特性广泛应用于图计算技术的加速。现实世界中的图数据规模十分庞大,单个FPGA难以对其进行有效存储和处理。因此,采用多个FPGA互联的方式是解决上述问题的重要技术途径,其需要将图数据划分为子图,并分别放置到不同FPGA上进行处理。考虑到多FPGA
学位