上下文感知的实体链接技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：flyingfish521

【摘要】

：

将互联网上海量的非结构化文本数据转为应用所需的结构化知识,使其可被计算机高效地利用是改进搜索系统,实现智能问答与机器阅读的基础。在这个过程中,实体链接技术扮演了一

【作者】

：

戴洪良

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2017年期

【关键词】

：

实体链接文档向量信息抽取分布式表达

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

将互联网上海量的非结构化文本数据转为应用所需的结构化知识,使其可被计算机高效地利用是改进搜索系统,实现智能问答与机器阅读的基础。在这个过程中,实体链接技术扮演了一个关键的角色,其主要目标是消除由于别名、指代、一词多意等语言学现象引发的歧义,建立文本中出现的专有名词(实体名)与知识库中其所指代的实体之间的对应关系。如何从对应同一实体名的多个候选实体中找出最佳候选是实体链接的研究重点。本文对此展开了深入的研究,提出了一种基于融合实体信息的文档向量的实体链接方法:首先,本文提出了一种新颖的文档分布式向量表达学习模型,在传统文档向量表达学习过程中融合上下文实体、实体共现性等对于实体链接至关重要的额外信息,使得新的文档向量表达在实体链接中具有更好鉴别力;针对上述模型难以直接训练的问题,研究了一种通过随机采样训练样本,并结合Hierarchical Softmax或Negative Sampling进行训练的方法,不但使得信息融合成为可能,更提高了训练速度;随后,基于该模型学习得到的文档向量特征,本研究构建了候选实体与当前输入文档的语义匹配程度模型;最后,结合求出的语义匹配程度与候选实体本身的属性协同地探索实体链接最佳候选,形成了完整的实体链接系统。基于分布式向量表达的实体链接系统克服了传统方法需手工构造特征的缺点,自动地利用了同一文档中提及的不同实体之间通常存在一定关联的假设,在链接时联合感知了上下文中的普通词信息和提及实体信息。相比近年来提出的基于深度神经网络的方法,具有无需大量实体链接标注数据、模型训练时间短等突出优势。在实体链接研究常用的TAC KBP实体链接数据集上的一系列实验结果表明,本研究设计的实体链接系统性能优越,其准确率可高于现有最新实体链接方法2个百分点以上。基于本研究的实体链接系统,在2016年NIST(美国国家标准技术研究所)组织的国际知识库构建大赛(TAC KBP)英文EDL(实体发现与链接)任务的全部8项指标中,取得了6项第一,2项第二,综合性能排名第一的好成绩。同时参与任务的国内外高校与研究机构还包括CMU、IIBM、科大讯飞等共13个参赛队伍。本研究所述的实体链接系统,不但得到了国际竞赛的认可,还直接应用于中国工程院牵头的中国工程科技知识中心建设项目等多个国家级项目中,为实现其中的自动知识库构建与数据结构化发挥了重要的作用。

其他文献

基于多核机群环境的并行程序设计方法研究--MPI+OpenMP混合编程

　　高性能计算HPC(High Performance Computing)是验证计算机系统处理能力和计算速度的一种有效手段。如今，高性能计算在国内外受到高度重视，其地位与作用已被广泛接受，它已成

学位

高性能计算多核机群MPI+OpenMP混合编程

基于移动Agent的MP2P资源定位方法研究

随着3G技术的发展，越来越多的移动终端加入到了基于无线连接的Internet网络，而在传统固线连接的Internet网络中取得巨大成功的P2P技术与无线网络相结合，形成移动对等网（Mobile Pe

学位

移动对等网移动Agent资源定位资源特性链路可用性

电容层析成像系统图像重建算法的研究

电容层析成像技术(Electrical Capacitance Tomography，ECT)可视为目前最为广泛研究的一种过程层析成像技术，该技术具有非侵入、非接触、成本低等优点，从原理上讲只要各相具有不

学位

电容层析成像Chebyshev算法神经网络图像重建

OLAP技术在电能质量数据分析中的应用

本课题从电能质量决策者的数据分析需求出发,针对传统的查询分析方式在电能质量数据分析过程中的局限性,提出了基于OLAP技术的电能质量智能信息系统多维分析解决方案,以更加

学位

OLAPSSAS多维立方体暂降分析综合评估

基于在线学习的垃圾邮件过滤技术研究

电子邮件给人们的生活和工作带来极大的便利，但大规模的垃圾邮件严重影响了邮件正常使用。垃圾邮件消耗大量网络资源，损害用户利益，还会被一些别有用心的人用来散播虚假消息，危害

学位

垃圾邮件过滤在线学习特征选择排序学习噪声用户反馈

基于TimeDB的时态数据库研究与应用

现实世界是随着时间在发展变化的,时间是自然界的客观属性,是信息的重要组成部分。随着计算机科学和信息技术的不断发展,传统的DBMS已经无法实现对时态信息的处理,因此时态数

学位

时态信息TimeDBATSQL2查询语言时态数据库管理系统

基于无线传感器网络的移动节点认证协议研究

随着传感器技术、微电子系统、现代网络和无线通信技术的飞速发展和日益成熟,无线传感器网络(Wireless Sensor Network,WSN)逐渐被应用于国防军事、智能建筑、国家安全、环境

学位

无线传感器网络移动节点形式化分析组合安全认证协议物联网

聚类融合算法研究及其在电信客户细分中的应用

聚类分析一直是数据挖掘和知识发现领域最重要的研究方向之一,聚类技术也得到了越来越多的关注,并且广泛应用于工程、生物医药、市场营销、商业智能与决策分析等诸多领域,切

学位

数据挖掘聚类融合PCA加权电信客户细分

支持向量机在音乐情感识别领域中的应用

音乐具有情感，有的情感比较单一，有的情感可能比较丰富；由于主观因素的存在，每个听众对每首音乐具有的情感的标定也是不一的，这就对情感定义和情感库的建立带来难度。本文以音乐情

学位

音乐情感支持向量机多标签情感库情感认知模型

调度自动化系统中身份认证和访问控制方法的研究

电力调度自动化系统作为电力系统运行调度与控制的大脑,用于实现对电力系统在线计算机控制与调度决策,其在电力系统中的作用日益显著。目前,我国正在大力进行智能电网建设,智能调度是智能电网发展的必然趋势,而智能调度的基础是电网调度自动化系统。因此,必须加强身份认证技术和访问控制机制,来保障电力调度自动化系统的安全。在身份认证方面,本文针对调度自动化系统存在身份冒充的问题,提出了一种新的双因子的双向身份认证

学位

调度自动化系统双向身份认证RBAC可信度

上下文感知的实体链接技术研究

与本文相关的学术论文