【摘 要】
:
关系抽取是信息抽取中的一项重要任务,关系抽取可以快速高效的从互联网海量无结构和半结构的文本数据中抽取出语义知识。在实际的应用落地场景中,关系数据的频率通常遵循长尾分布,其中少样本类别所占比例较大。一个面向实际场景的关系抽取系统既需要稳定可靠地识别拥有大量标注数据的头部关系概念,同时又能依靠少量训练实例高效地学习新出现的尾部关系,并获得能统一识别头尾类别的融合分类器。传统有监督方法、远程监督方法和传
论文部分内容阅读
关系抽取是信息抽取中的一项重要任务,关系抽取可以快速高效的从互联网海量无结构和半结构的文本数据中抽取出语义知识。在实际的应用落地场景中,关系数据的频率通常遵循长尾分布,其中少样本类别所占比例较大。一个面向实际场景的关系抽取系统既需要稳定可靠地识别拥有大量标注数据的头部关系概念,同时又能依靠少量训练实例高效地学习新出现的尾部关系,并获得能统一识别头尾类别的融合分类器。传统有监督方法、远程监督方法和传统少样本学习方法都只解决了目标的某一方面,即要么学习头部的多样本分类器,要么学习尾部的少样本分类器。本文针对性研究更切合实际的广义少样本关系抽取问题:基于大规模基础关系训练得到的模型可以动态结合少量的新关系样本,在推断时对基础关系和新关系做联合分类。原型网络近期在深度监督学习、少样本学习和不平衡关系分类等领域均取得了显著的成绩。然而,现有的原型网络基于静态场景而设计,忽略了动态学习过程中可能出现的新关系。而且原型网络应用到广义少样本任务中存在分类偏误问题。上述不足导致现有模型存在着基础关系和新关系学习任务不兼容的情况。因此,本文提出了基于任务自适应特征融合的联合原型网络,从而获得自适应且兼容的特征表示。此外,由于语言具有多样性和新关系少量样本所表达的语言特征不够充分,致使新关系学习能力欠佳。为了迫使新关系样本的特征表示更加关注其核心语义,本文提出原型对比学习来改善新关系的特征空间聚类表现,得到更加准确可靠的新关系原型表示。在大多数实际场景中,关系抽取系统不仅需要处理呈长尾分布的关系数据,也需要处理呈开放式分布的关系数据。目前的工作主要集中在关系的部分频率分布上,无法应对实际场景中关系抽取应用的需求。本文提出了开放环境下的广义少样本关系抽取,同时考虑关系的整体频率分布。具体来说,它不仅可以从大规模标注数据中学习基础关系,也能从少量标注样本中学习新关系,还可以在开放环境中检测出未知关系。为了实现上述目标,受到人类常常会对未知信息与已有经验进行基于模板或原型匹配的处理方式启发,本文设计了区域原型网络。通过结合联合原型网络和区域原型网络的想法,本文进一步提出了开放联合原型网络。本文提出的模型在公开大规模数据集上进行了大量实验,验证了本文模型的有效性。
其他文献
肺纤维化与卵巢癌作为致命性的两种疾病,均需要特定的药物对其进行治疗。在传统治疗的过程中,药物的非特异性靶向所带来的全身性的毒副作用给患者的健康和临床治疗都带来了很大的困扰。因此,近年来,实现药物的精准靶向递送就成为了研究人员们关注的领域。其中,纳米复合材料的功能基元组成多样,在药物的靶向递送上存在着极大的应用潜能,引发了研究者们的广泛关注。四氧化三铁纳米粒子具有超顺磁性,可以在外部磁场的作用下聚集
长期以来,颈椎病在中老年人群中具有较高的发病率。根据大量临床研究结果,人体的手部灵活性和颈部神经之间存在紧密联系。骨科医生在门诊过程中对患者进行颈椎病检查时,通常会让患者进行一次十秒手部抓握试验,并以此试验的结果,即患者在十秒内的抓握次数作为对病情的初步判断。到目前为止,十秒手部抓握试验的计数仍然由医生进行肉眼计数。当患者的手部抓握速度太快时,肉眼计数容易出现错漏,从而可能导致发生误诊的情况,影响
在“绿水青山就是金山银山”的战略谋划下,对水环境漂浮物进行监测以防治水污染已是燃眉之急。面向复杂水场景图像的语义分割方法是水环境漂浮物监测的重要支撑技术,因为语义分割可以细致地描绘漂浮物并提供精确的物体信息。复杂水场景中漂浮物种类繁多,语义分割方法面临数据层面和算法层面的挑战。在数据层面,现有水场景语义分割数据集多半仅顾及单一类别的漂浮物,导致基于现有数据集训练的语义分割方法面向多种漂浮物时既容易
k-mer频次计数任务是生物信息学分析工作流的基础环节,可为表征生物序列上下文提供可用材料,应用场景包括序列组装、序列比对、序列修正、突变位点检测、公共祖先发现、模体发现、基因关联分析等等。随着测序数据规模不断扩大,k-mer频次计数算法所需的存储和时间开销已成为不可回避的问题。本文分别研究共享内存环境和天河超算环境下的大规模k-mer频次计数问题,主要内容如下:(1)针对共享内存计算环境,提出一
跨语言词对齐作为跨语言领域的一项基础研究,专注于两个语种之间单词级别的对齐,是其他跨语言任务的上游任务和重要支撑。随着深度学习技术在跨语言领域的普遍应用,研究者们近年来在跨语言词对齐的研究上取得了巨大的进步,但现有的方法依然存在着以下不足:1)现有的跨语言词对齐方法大都依赖于语种词向量空间之间的同构性,针对低同构性的语种对任务,这些方法不能取得令人满意的效果。2)基于对抗式的无监督跨语言词对齐方法
过去的几十年中,工业化工快速发展,伴随着的环境问题也越发严峻。海洋湖泊大面积遭到化学品污染,为了改变传统化工生产中的先污染再治理的生产方式,“绿色化学”和“可持续发展化学”的概念被逐渐引入科学研究和生产领域,因此寻找符合可持续发展、符合绿色化学要求的有机反应途径迫在眉睫。水不仅是自然界生命体系中化学反应的介质,还是理想的绿色溶剂。以水作为溶剂的有机反应,具有无毒、廉价、不易燃烧等优点。由于水具有诸
生物序列的模体识别是在一组核苷酸或者蛋白质序列中寻找高度相似的、重复出现的保守短序列子串。模体识别对揭露基因表达调控、研究病变机制、发现分子的结构和功能都具有重要的生物学意义。它是一个NP难问题,通常分为枚举和概率两种解决方法。然而枚举方法较为耗时,概率方法在运行速度上更具有优势却容易陷入局部最优,因此本文针对基于概率的模体识别算法存在的问题进行研究,主要的工作内容如下:(1)提出了融合排序轮盘赌
在当前时代的快速发展下,材料化学已经成为国家科技发展进步中不可或缺的一部分。而聚合物材料作为材料化学的重要组成部分,凭借着自身的优势,在材料化学的开发应用中发挥着至关重要的作用。在性能上,不同于小分子材料所具有的单一性,聚合物材料集结了众多单体之间的特点,在宏观上表现出更加优越的性能。基于这些研究,开发性能多样的聚合物材料成为研究者们关注的焦点。超分子化学作为一门新兴的学科,为构筑各种聚合物材料提
命名实体识别是指从非结构化的文本中识别出具有特定意义的实体,可以用于挖掘非结构化文本中的重要信息。现有的研究提出了很多的识别命名实体的方法,推动了命名实体识别任务的发展。然而很多命名实体识别的研究忽略了文本中广泛存在的嵌套命名实体,使得一些重要实体未能被识别出来。为了识别文本中出现的嵌套命名实体,有研究者提出了基于区域的嵌套命名实体识别模型,这类模型会定位实体边界以获取候选区域并分类候选区域的实体
随着互联网的快速发展,社交媒体上积累了大量的用户生成内容,这些用户生成内容是许多下游应用的重要信息来源。命名实体识别是从社交媒体数据中挖掘有用信息的关键技术,然而由于社交媒体上的文本通常较短且包含较多噪音,导致传统的命名实体识别模型在社交媒体领域表现不佳。近年来有研究者提出了多模态命名实体识别模型,旨在利用和社交媒体文本相关的图像信息辅助识别命名实体。虽然现有的多模态命名实体识别模型取得了不错的性