【摘 要】
:
随着互联网的高速发展,人类可获取的信息量呈指数级增长,如何从海量数据中挖掘有效的信息成为亟待解决的问题。信息抽取研究正是在这种情况下产生的,其目标是将自然文本中的无结构化信息进行结构化处理,以统一的形式存储,并对获取的知识进行关联融合。实体关系抽取是其中重要组成部分之一,其通过理解文本语义,抽取文本中实体之间的现实关系,形成<实体-关系-实体>三元组作为知识图谱的最基本组件。因此,实体
论文部分内容阅读
随着互联网的高速发展,人类可获取的信息量呈指数级增长,如何从海量数据中挖掘有效的信息成为亟待解决的问题。信息抽取研究正是在这种情况下产生的,其目标是将自然文本中的无结构化信息进行结构化处理,以统一的形式存储,并对获取的知识进行关联融合。实体关系抽取是其中重要组成部分之一,其通过理解文本语义,抽取文本中实体之间的现实关系,形成<实体-关系-实体>三元组作为知识图谱的最基本组件。因此,实体关系抽取技术的精度与适用性直接影响了知识图谱的准确性与体量,对构建大规模知识图谱至关重要。深度学习模型促进了实体关系抽取技术的发展,但仍面临着文本数据内容分散、实体关系类别繁杂、标注工作难度大等问题。目前,常规的实体关系抽取任务主要通过远程监督(Distant Supervision)机制自动生成大量有标注数据,并利用深度神经网络模型进行端到端的实体关系分类,但是深受噪声和误标注等问题影响,导致模型训练过程中的参数更新受到错误信息影响,抽取精度降低;在生物、医疗等专业领域存在少样本学习(Few-shot Learning)场景,通常难以自动生成数据,只能利用极少量甚至个位数的实例样本,常规的深度学习模型在少样本情况下难以学习由文本到分类的多层映射,损失函数不能收敛,导致预测结果倾向于随机,无法有效应用。为了解决上述难点,本文将深度迁移学习(Deep Transfer Learning)技术引入实体关系抽取领域,依托深度神经网络模型强大的特征提取与拟合能力,并使用迁移学习方法,将在语义信息充足的任务中得到的外部知识应用到目标任务中协助学习,提升实体关系抽取模型的性能。首先,本文针对远程监督机制下的噪声场景,提出了一种基于BERT预训练模型的实体关系抽取模型(BERT for Relation Extraction,BRE),在外部语料中进行预训练,并将模型参数迁移到远程监督实体关系数据集中进行微调(Finetune)。本文提出的BRE模型构建了位置增强卷积层,以增强处理实体位置信息,将外部语料的绝对位置信息迁移到关于实体的相对位置信息中,使外部知识可以融入实体关系的判断,同时减弱噪声对真实关系属性的干扰。此外,本文还设计了时间衰减注意力机制用于多实例学习模式的降噪处理,在模型迭代的过程中按时间衰减而遮蔽低置信的实例,保留高置信的实例加权获取表示向量,以缓解误标注实例对模型参数更新的影响,提升模型的精度。BRE在NYT-10和GIDS等公开数据集中进行评估,验证了其优越性能。然后,针对少样本实体关系抽取任务中数据极度稀缺导致的模型无法收敛的问题,本文提出了基于度量元学习(Metric-based Meta Learning)的少样本实体关系抽取方法,该方法延伸了知识迁移的思想,将模型参数知识的迁移拓展为类别知识的迁移,即维护一个度量空间,设计元任务从具有足量数据的类别中学习文本实例与关系类别在空间中的匹配关系,并将通用的类别知识迁移到少样本的关系类别中。本文设计了以深度神经网络为基本框架,使用度量元学习方法训练的少样本实体关系抽取模型,称为多通路注意力网络(Multi-Channel Attention Network,MCAN)。MCAN 框架采用 多通路并行处理的方式保留更全面的信息,并引入了双目标辅助损失函数协助训练,使关系类别在度量空间中的划分更加清晰。MCAN框架在NYT-10和FewRel等公开数据集中验证了其优越性能及稳定性。
其他文献
无线传感器网络节点监测环境、收集数据、处理数据,通过自组织网络形式将数据传回平台以供分析使用,应用价值非常高。但是网络中节点独立,无能量来源,这就极大限制了无线传感器网络的使用周期和应用场合,导致能耗问题成为无线传感器网络实际应用和广泛推广的短板,高效节能成为无线传感器网络路由算法设计的关键。蚁群算法能够为无线传感器网络高效快速的寻找到一条最优路径。通过在蚁群算法中的概率选择公式引入节点剩余能量,
上地幔410-km和660-km间断面的形态特征,对探测地幔过渡带内温度和化学成分的横向变化,以及板片俯冲深度和地幔对流模式等具有重要意义。阿留申-阿拉斯加俯冲带和汤加-斐济俯冲带分别位于环太平洋俯冲带的最北端和西南部,是研究俯冲板块前缘与660-km间断面相互作用的天然实验室。本文利用国家测震台网固定台站和“中国地震科学台阵探测”项目在南北地震带北段布设的流动台阵记录到的极远震波形资料,通过对大
机场始发航班与过站航班都要接受各种不同的地面服务,这些服务由相应的保障车辆完成,除冰是飞机起飞前的最后一项地面服务。除冰资源利用紧张的情况常常会出现在极端天气条件
随着云计算、大数据等技术的不断兴起,互联网应用将以前所未有的态势涌入人们生活的方方面面。光纤通信网作为通信系统中最主要的核心网络,承载了互联网和无线移动网络的大部分流量,在通信中发挥着至关重要的作用。光纤通信系统具有带宽大、抗干扰性强、低时延等显著特点,在未来将持续发挥其特征优势,引领现代通信进入崭新的阶段。因此,对光通信系统及其关键传输技术展开深入研究具有十分重要的意义。本文对光通信系统中二维和
随着互联网和移动端的发展,越来越多的人在网络上分享信息并写下自己的一些评论,包括电影评论、购物评论、新闻评论等等。传统情感分析只能给出整句的情感倾向。随着注意力机制的提出,深度学习在自然语言处理领域得到了迅速的发展,注意力机制可以捕捉上下文的信息,能更好的处理语义层次的问题。细粒度情感分析的任务由评价对象的抽取和评价对象的情感判断两个过程组成。本文尝试采取基于注意力机制的深度神经网络模型来进行细粒
图像描述是一项图文融合的技术,目的是用文字对图像内容进行概括性描述。在图像检索、机器人问答、儿童教育等领域具有广阔的应用前景。目前图像描述生成的描述语句的准确性和生动性有待提高,本文基于图卷积神经网络和注意力机制对图像描述任务进行研究分析,主要工作如下:第一,提出基于Dense Net和自适应注意力机制的图像描述模型D-ada。考虑到图像描述很难正确提取图像的全局特征,同时大多数注意力机制方法强制
散在倍增插入变异是一种常见的人类基因组DNA插入类型,在人类癌症的发生过程中起着促使基因组不稳定的重要作用,准确检测散在倍增插入的位置及序列,对变异基因的筛选分析和对癌症等疾病的靶向药物选定具有重大意义。随着第二代测序技术的发展,越来越多检测插入变异的算法逐渐被提出,但是使用第二代测序数据很难检测散在倍增插入变异,这是因为源自测序样本中散在倍增插入区域的读段很可能完全映射到参考序列中的其它区域。而
《燕语生意筋络》是清末以北京话为载体的商务汉语用书。《燕语生意筋络》为我们提供了一个较新的语料去研究清末北京官话。本文从版本、语言、商业文化三个层面对这本专书进行研究。首先,对该书的成书背景、渊源、体例等版本信息作了细致的溯源和介绍,发现与《燕语生意筋络》同一内容不同年代的历时系列语料——《生意初阶》《贸易须知》(炳记)、《贸易须知》(嘉庆本)与《燕语生意筋络》形成的系列语料,也具有较高的研究价值
随着中国的发展进步,老百姓对健康越来越关注,对医疗保障的要求也进一步提高。同时,随着我国医疗改革的加快和医疗保障受众的全覆盖,加上人口老龄化加剧、医疗保障经费大量使用,医疗费用支出大幅增加,以前的医疗经费管理和服务方法暴露出诸多不足。通过推动医疗保险公共服务流程改进来破解老百姓看病难、养病难、报销难、没病预防难等问题,已经成为D市医疗保障公共服务改进工作面临的重要课题。本文首先对我国目前整个医疗保
VB族金属钒(V)是重要的氢分离和纯化材料,由于其低成本、高氢渗透和良好的机械强度而受到人们的青睐。但是,纯V易发生氢脆和氧化,对氢的解离和重组效率较低,在实际应用中非常容易受限制。经研究表明,对V合金化后,可以改善氢脆效应、表面氧化以及提高氢解离和重组效率,从而提高V合金的氢渗透性和机械性能。为此,我们使用第一性原理计算系统地研究了H在V(1 0 0)表面和体内以及过渡金属元素(M=Mo、W、P