【摘 要】
:
信息化时代,数据爆炸增长,人工智能技术推动了人们对数据的应用。知识图谱可以给人工智能赋予深度理解的能力,知识图谱技术的发展,使信息服务趋向智能化。在知识图谱中,最基础的单位是实体,文本信息的载体也是实体。因此实体识别技术与实体消歧技术可以影响知识图谱中实体的质量,是知识图谱的重要构建工具。命名实体识别技术实现知识图谱中实体的抽取,命名实体消歧技术可以准确链接文本中的实体,知识图谱的质量很大程度取决
论文部分内容阅读
信息化时代,数据爆炸增长,人工智能技术推动了人们对数据的应用。知识图谱可以给人工智能赋予深度理解的能力,知识图谱技术的发展,使信息服务趋向智能化。在知识图谱中,最基础的单位是实体,文本信息的载体也是实体。因此实体识别技术与实体消歧技术可以影响知识图谱中实体的质量,是知识图谱的重要构建工具。命名实体识别技术实现知识图谱中实体的抽取,命名实体消歧技术可以准确链接文本中的实体,知识图谱的质量很大程度取决于实体的质量。目前中文知识图谱面临的主要挑战有两点:中文纯文本信息中实体边界难辨认导致中文实体抽取难度高和短文本信息进行实体消歧时,由于上下文的特征信息不足使输入文本中的实体无法准确地关联到正确含义的实体。鉴于知识图谱面临的这两项挑战,确定了本文的研究方向,优化实体识别算法和实体消歧算法,提高模型的准确率和召回率。本文通过对知识图谱技术的研究,提出了多粒度向量的方法来优化实体识别模型,解决纯文本信息中实体难抽取的问题。同时,使用特征增强的方法优化实体消歧算法,解决短文本中实体难消歧的问题,提高实体消歧模型中实体的特征信息,构建的实体消歧模型在对短文本的实体消歧中,准确率达到91.14%,召回率超过88%。本文的实体识别模型以双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)和条件随机场(Conditional Random Field,CRF)为网络框架再引入自注意力机制的基础上,提出多粒度向量模型,该模型使用多粒度向量的方法将字向量结合词向量作为输入,使用模型 BERT-wwm(Bidirectional Encoder Representations from Transformers with Whole Word Masking)进行预训练,将预训练后得到的特征向量输入Bi-LSTM网络,充分考虑上下文信息,同时引入自注意力机制,对局部特征重点关注,将特征识别的结果输入到CRF层,得到实体的标注结果。实验表明,这种模型的识别效果较高。本文使用深度学习方法,利用丰富上下文特征的方法优化实体消歧模型。当输入待消歧文本,使用Bi-LSTM网络抽取待消歧文本的序列特征,提取待消歧文本中实体的首尾字向量、最大池化(Max pooling)、自注意力(Self-Attention)特征,将得到的特征拼接后进行加权求和得到输入文本中实体的特征向量。候选实体集通过词典获取,输入候选实体的描述文本,使用Bi-LSTM获得输入文本的序列,输出向量在Attention层进一步提取语义信息,得到描述文本的特征向量。最后计算实体向量间的相似度,得到实体消歧结果。实验结果证明,优化后的实体消歧模型对中文短文本中实体的消歧效果更好,准确率达到91.14%。
其他文献
随着移动设备的不断普及和模式识别算法的进步,移动设备新型人机交互应用得到了快速发展。目前最成熟的手势识别系统依靠可见光摄像头和机器视觉来实现,但是此类系统在弱光或被遮挡的情况下存在失效的风险,因此有必要探索新的无线感知介质。60GHz毫米波具有频率高、波长短的特点,最高可用带宽达到7GHz,可望支持厘米级的手势分辨率,因此可以有效替代可见光来感知手势。目前已有的毫米波手势识别系统普遍使用Range
随着万物互联、智慧城市等新兴概念和产业的不断提出和发展,位置服务在人们日常生产生活中的作用逐渐凸显。当前城市环境复杂多样,尤其是在室内区域,信号在传输过程中容易受到多径、非视距等因素的影响,导致定位性能的下降。且联合多基站定位的方法存在基站节点部署成本较高、定位条件较为严苛等不足。5G网络商业化进程逐步成熟,相关技术的研究与应用给单基站定位的实现提供了条件。因此,本文结合5G组网技术特点,探究了以
随着移动互联网的快速发展,无线通信系统中站点与频谱资源的短缺,使得通信技术领域内多波束基站天线的应用愈发广泛。多波束基站天线能够通过巴特勒矩阵网络辐射出不同指向的子波束,从而使得天线信号在覆盖范围更加广泛的同时,网络容量也得到了提升,真正实现了在现有频谱与站点资源短缺的情况下,有效地解决天线系统容量不足,覆盖深度不够的问题。因此,基于巴特勒矩阵网络的宽频带多波束的巴特勒矩阵网络的研究近年来受到广泛
由于移动设备在日常生活中的使用率越来越高并且越来越便利,目前已有许多平台将服务集成并迁移到移动应用程序中,其中包括了密集型计算应用,即需要大量实时计算的应用,例如自动驾驶服务和基于区块链的加密货币服务,此类应用对移动设备的存储和计算能力提出了很高的要求,但移动设备因计算和存储资源不足无法支持此类服务的高速运行。移动边缘计算可以通过提供计算任务卸载服务来解决上述移动设备资源受限问题,将应用服务的计算
随着科学技术的不断发展,机器人技术己经取得了突破式的进展,越来越多的全自动机器人应用于生产生活的方方面面。移动机器人作为机器人技术的重要分支也是目前研究的热点方向,其核心技术和难点是SLAM(同时定位与建图),主流的研究方向为基于二维或三维激光雷达的激光SLAM技术与基于摄像头的视觉SLAM技术,这两种SLAM技术各自有着优势与弊端。本文在以工厂室内环境作为应用场景的基础上,研究使用激光雷达和视觉
随着互联网技术的快速发展,社区论坛上的发贴互动数量大幅增长,它成了人们获取信息的主要途径之一,这些问答贴中包含了大量的信息交流,帮助用户解决了许多问题。但在一些问答贴中,包含了一些无效甚至是错误的回答,这样的回答会对用户及关注相同问题的人造成误导,甚至会给用户带来很大的损失。为了高效的解决用户提出的问题,当一个新问题提出时,如何找出相关用户来回答这一新问题,减少无效答案对用户的影响,也是一个非常值
随着移动通信技术的不断升级,物联网技术得到了快速发展。目前,人们在日常生活中已经使用了越来越多的物联网设备,例如交通、智能家居、可穿戴设备和其他监视设备。但是,计算资源限制仍然是通信系统中物联网设备面临的挑战。为了解决计算问题,学者们提出了移动边缘计算(Mobile Edge Computing,MEC)技术。MEC技术被认为是通过在物联网边缘部署计算服务器来提供稳定和低延迟服务的有效解决方案。但
近年来,开源软件行业快速发展,开源软件一方面促进了软件行业的交流,为软件行业的发展提供助力;另一方面又为软件抄袭提供了滋生的土壤。软件抄袭在学生作业、商业竞争乃至软件知识产权保护等领域造成了严重危害,软件抄袭检测作为软件抄袭现象重要的应对手段,越来越受到众多开源组织和商业软件公司的重视。软件胎记技术通过对软件二进制代码进行静态分析和动态胎记,提取出关键的语义信息和结构特性,能够对抗复杂的代码混淆手