【摘 要】
:
细粒度实体分类(Fine-grained Entity Typing,FET)旨在识别纯文本中实体的语义类型,该任务是自然语言处理领域中的一项基础任务。实体的类型分类是包括知识图谱补全、关系抽取和共指消解等更上层自然语言处理任务的重要基石。现有的细粒度实体分类研究主要集中在处理远程监督带来的噪声标签、优化实体提及的特征表示和利用类型标签之间的依赖关系这三个方面。但是,大部分模型仍然存在以下两个问题
论文部分内容阅读
细粒度实体分类(Fine-grained Entity Typing,FET)旨在识别纯文本中实体的语义类型,该任务是自然语言处理领域中的一项基础任务。实体的类型分类是包括知识图谱补全、关系抽取和共指消解等更上层自然语言处理任务的重要基石。现有的细粒度实体分类研究主要集中在处理远程监督带来的噪声标签、优化实体提及的特征表示和利用类型标签之间的依赖关系这三个方面。但是,大部分模型仍然存在以下两个问题:1)实体类型数量的增多制约了实体类型分类模型的分类性能。随着类型数量和问题复杂性的增加,目前的神经网络模型难以给实体提及从大量的实体类型集中筛选出符合上下文语义的类型标签;2)仅关注单一信息源提取实体提及级别的特征。当前的方法未充分利用实体提及的多源辅助信息,无法有效建模实体提及和类型标签之间的复杂相关性,难以对只有稀缺信息的实体进行类型分类。为了解决这些问题,本文基于多源信息融合,提出了融合复制机制的细粒度实体分类方法。本文的主要工作和创新点如下:(1)针对实体类别数量多难以正确分类问题,本文引入复制机制,提出了基于复制生成框架的模型用于细粒度实体分类,模型可以直接从知识图谱中复制关键信息。具体来说,该模型包括复制模型和生成模型两个子模块,前者利用复制机制从知识图谱中获得复制类型词汇表,然后在此表的范围内预测实体类型的概率;而后者从整个数据集中的实体类型词汇表中推断出实体类型概率。最终将两个概率分布结合起来作为最终的类型预测。因此,模型可以参考复制模型中的类型复制词汇表来识别实体提及的语义类型,减轻模型的感知混淆。此外,本文基于层次分类方法执行从粗粒度到细粒度的类型推断策略,自上而下的在层次标签树上搜索实体提及的候选类型标签,从而缓解了远程监督带来的具体噪声标签的负面影响,进一步提高了模型的分类准确率。(2)针对辅助信息未能充分利用问题,本文提出了基于多源信息融合的提及表示方法,能在只有稀缺实体信息的情况下提高模型的泛化能力。具体来说,该方法首先利用神经网络来生成上下文和实体提及表示,然后根据实体提及使用实体链接来获取提及的背景知识,通过融合实体提及信息、提及上下文信息和背景知识来优化提及的表示质量,从而提高复制模型的分类效果。该方法增强了实体提及上下文与类型标签之间的语义联系,使得模型能充分利用实体的背景知识对只有稀缺信息的实体进行类型分类,克服了以往单一信息源提取的特征使得模型泛化能力不足的问题。本文在常用的基准数据集上进行了大量的实验,通过对比实验、消融研究和样例研究对本文所提出的Copy Fet模型的有效性进行了验证。实验结果表明,本文提出的细粒度实体分类模型Copy Fet超过了现有最先进(State-of-the-Art)的方法,在FIGER和BBN数据集上的准确率分别达到了76.4%和83.6%。
其他文献
近年来,互联网借贷蓬勃发展,出现了一系列风险管理问题,导致借款人合法权益受损,相关部门也出台了政策对互联网借贷的发展进行约束和管理。信托公司作为具备贷款发放资格的金融机构,近年来也在积极转型,通过移动互联网这一便捷高效的获客途径为广大借款申请人提供小额贷款资金,为了合规、高效地开展互联网借贷项目,信托公司也需要主动拥抱机器学习技术来对互联网借贷项目进行风险管理,以更大限度的减少项目损失、提升项目盈
在互联网时代,大量面向公众提供服务的互联网公司都需要监控自身的网络服务情况和服务器健康状态等数据,以保证能够提供正常的服务访问,也就是运维工作。但随着上网用户的激增,互联网能够提供的服务越来越多,需要监控的数据也在不断增加,传统的人工运维已经无法再适应高速发展的互联网时代。运维技术也随着人工智能技术的进步而进入了智能运维(AIOps)时代,异常检测任务的目标则是通过使用人工智能算法自动的发现运维数
近年来,信息技术服务外包(ITO)飞速发展,金融企业积极引入IT外包,创新发展。但是,随着大数据、人工智能等创新技术日新月异的发展,金融行业竞争形势愈加严峻,软件系统的重要性不断加强,在需求迭代更高频、技术迭代更快捷、研发团队更庞大的多重压力下,软件研发服务外包项目管理难度仍旧不断升级,生产风险不断加大。面对这种情况,发包企业却普遍缺乏有效的质量评价方法,无法及时清晰的评判外包项目的质量情况,因而
目的:探究基于BI指数的分级康复护理策略对脑卒中后患者神经、运动功能及生活质量的影响。方法:选取2019年6月至2021年12月在我院行脑卒中疾病治疗的80例患者,按照随机数字表法划分为对照组、研究组,对照组:40例,实施常规护理干预,研究组:40例,在常规护理基础上实施基于BI指数的分级康复护理策略。结果:干预后,研究组患者神经功能总有效率及生活质量评分明显高于对照组,(P <0.05);研究组
目的 探讨强制性运动疗法联合现代康复对老年脑卒中患者痉挛状态、肢体运动功能及生活质量的影响。方法 80例老年脑卒中患者随机分为两组各40例,对照组采用强制性运动疗法,观察组采用强制性运动疗法联合现代康复,比较两组的痉挛状态、肢体运动功能和生活质量。结果 治疗后,观察组的Ashworth痉挛评定量表分级优于对照组(P <0.05)。治疗后,两组的肢体运动功能评分和生活质量评分均高于治疗前,且观察组的
近年来,区块链项目变得越来越流行,尤其是随着其技术的不断完善及相关应用场景的落地,受到的关注度也越来越高。据相关研究统计,2020年全球企业区块链支出规模达到40亿美金,相较2019年接近翻倍。2015年以来,我国区块链行业市场规模也一直处于持续增长阶段,从2015年的0.06亿元快速增长至2020年的54.46亿元,且被作为新一轮产业革命技术纳入了国家级发展规划。然而目前作为区块链领域基础设施的
矩阵半张量积(STP,Semi-Tensor Product)是我国中科院程代展教授的一项重大理论创新成果,该理论打破了传统矩阵乘法Cm×n=Am×p·Bp×n对乘积矩阵维数的限制,不对参与乘法的矩阵做要求,而且保留了传统矩阵乘法的绝大多数性质,例如矩阵乘法的分配律、结合律,因此可以看成是传统矩阵乘法的一种理论推广。这种跨越维数的特点,使的矩阵半张量积成为刻画有限集之间相互关系及有限维空间多线性映
中国加入互联网大家庭已近30年,社会资产分配方式种类增加,新型财产的种类呈倍数增长。随着5G时代的到来,人们的消费方式风云变换,微信、淘宝和抖音等app和我们的日常生产和生活融合为一,账号价值日益凸显。虚拟财产作为新兴事物,借助网络空间环境发展较快,其交易的数量和金额的增长速度不断加快,但是在虚拟财产的税收征管方面,存在着消息隐匿、信息的查询处理上有困难、服务水平不高、电子发票管理混乱和人们纳税意
大力发展普惠金融,不仅有利于金融业可持续发展,也能助力经济发展增进社会公平,是我国全面建设小康社会的必然要求。商业银行需发挥金融服务职能,加大对“小企业”和“小行业”的金融支持,从而弥补金融服务不均衡和地方金融基础设施有待加强的问题。但目前我国的普惠金融发展水平不高,农户和金融信贷机构之间信息不对称、农村信用评估体系不完善等问题导致金融信贷机构不能准确客观对农户的信贷授信能力做出准确评估,从而导致
随着信息社会的快速发展,文本数据的数量呈现指数级增长,这催生出了自动文本摘要生成的需求。自动文本摘要旨在快速且准确地抽取文本的关键信息,生成文本摘要,有效提高用户阅读效率。目前,许多学者提出了基于图神经网络模型的文本摘要方法。然而,大多数模型面临以下问题:1)不能有效地编码除句子之外的语义节点;2)不能获取多种跨语句的元路径。另外,如何保证摘要的话题覆盖度和多样性也是文本摘要任务的一大挑战。针对以