【摘 要】
:
地理领域文本蕴含着丰富的非结构化地理实体和关系,完善的地理实体关系抽取技术对地理知识图谱的构建至关重要。由于地理领域内标注语料资源较少,难以运用深度学习等依赖大规模语料的方法,而基于领域适应的迁移学习方法,可以将其他领域与地理领域的知识迁移到同一特征空间中,利用其他领域丰富的语料增强对地理领域的学习效果以缓解语料不足问题。因此本文针对地理领域非结构化文本,使用基于领域适应的迁移学习方法进行实体关系
论文部分内容阅读
地理领域文本蕴含着丰富的非结构化地理实体和关系,完善的地理实体关系抽取技术对地理知识图谱的构建至关重要。由于地理领域内标注语料资源较少,难以运用深度学习等依赖大规模语料的方法,而基于领域适应的迁移学习方法,可以将其他领域与地理领域的知识迁移到同一特征空间中,利用其他领域丰富的语料增强对地理领域的学习效果以缓解语料不足问题。因此本文针对地理领域非结构化文本,使用基于领域适应的迁移学习方法进行实体关系抽取研究。领域适应过程包括数据特征的边缘和条件概率分布对齐,使分布接近一致则代表领域适应能力达到最优,为此需要定量地计算并平衡以上两种分布在适应过程中的相对重要性,以避免某一概率分布过度适应或欠适应。对上述问题,本文提出了地理领域的实体关系类型体系,以自动化的标注方法构建地理语料库,并提出概率分布自适应的迁移学习方法提高地理领域关系抽取效果。论文主要的研究和工作内容包括以下几个部分:1)分析构建了地理领域的实体关系类型,提出基于Trie树的自动标注方法,构建实体关系抽取数据集。由于公开数据集的关系类型体系不适用于地理领域,本文分析并总结现今公开的关系抽取数据集的关系类型特点,基于地理领域的文本特征构建了包含十种类型的地理关系类型体系;Trie树算法常用于字符串匹配和分词系统中,本文基于Trie树算法,采用远程监督假设,提出了实体关系抽取数据集的自动化标注算法,相比朴素匹配法,提高了2.5倍的标注速率。2)基于注意力机制Bi-LSTM模型,构建了高级特征层的领域适应迁移方法,通过降低特征层之间的最大均值差异融合两领域知识。本文将关系抽取任务定义为有监督的关系分类问题,输入特征包括字向量和字位置特征,避免了分词误差传播并减少了先验知识的引入。高级特征的获取由结合注意力机制的双向长短期记忆神经网络(Bi-LSTM)完成,可以有效表示文本序列中的前后依赖关系。为了将开放领域知识迁移到地理领域内,基于高级特征层提出了领域适应迁移学习方法,通过最小化两个领域高级特征层之间的最大均值差异(MMD),将开放领域与地理领域的特征空间进行适应,同时学习了两个领域中的特征,实验表明该方法提升了地理领域的关系抽取效果。3)提出了针对概率分布适应权重的估计方法,自适应地调整边缘和条件概率分布分布在适应过程中的学习权重,提升领域适应能力。为了使领域适应后边缘和条件概率分布均能接近同分布状态,本文基于A-distance度量方法估计了两种分布在适应过程中的相对重要性,通过权重的自适应调整方法,加强概率分布差异较大时的领域适应程度,减少概率分布差异较小情况下的过度适应,避免了人工调参。由于条件概率分布的计算较为复杂,本文采用了目标领域伪标签的生成方法,计算了类条件概率分布的充分统计量获取近似值,降低计算复杂度;同时针对MMD时间复杂度过高的问题,采用线性时间复杂度的无偏估计方法计算,提升了领域适应迁移的计算效率。最终实验表明概率分布自适应方法达到了较好的效果。
其他文献
课堂教学中,PowerPoint材料的呈现位置以及实验和游戏中实体辅助教具的摆放位置都会影响学生的学习效率,这与空间一致性的概念相类似,刺激和反应的空间位置的一致与不一致会影响加工速度。客体一致性效应,即客体Simon效应,是一种特殊的空间一致性效应,指的是当可抓握客体手柄与反应位置或反应手一致比不一致时反应时更短正确率更高的现象。Tucker和Ellis(1998)最早在研究中发现客体一致性效应
在缺陷修复过程中,开发人员通常需要利用历史缺陷存储库或其他缺陷资源中的相关的历史缺陷信息,以支持诸如缺陷预测、缺陷定位、缺陷根本原因预测等多项缺陷分析工作,从而能够更好地完成缺陷修复工作。缺陷文本中包含了丰富的语义信息,有效地获取并利用这些信息对于缺陷理解至关重要。然而,目前缺陷研究领域常常是利用传统的关键字匹配技术获取相关的缺陷信息,反馈的信息常常与用户所需缺陷信息并不相关,甚至包含了很多只匹配
数字技术成为人与社会交互的媒介,但自然界中绝大部分信息都不是以数字化的方式存在,把模拟信号变为数字信号是信息处理流程中最为关键的一步。基于传统的奈奎斯特采样理论产生的模拟-数字转换器(Analog-Digital-Converter,ADC)对采样频率要求严格,越来越难以满足超带宽、高频信号的采样处理。为实现低速率采样的同时缓解数据传输、存储及处理的压力,基于亚奈奎斯特采样的模拟信息转换器(Ana
最近几年,随着国家教育改革的深入以及一系列关于教育方面发展规划的颁布,我国高等教育得到了快速发展的机遇,尤其是自“民促法”出台之后,我国民办高校如雨后春笋,其发展势
视觉跟踪是计算机视觉中的一个基本问题,它在视频监控、自动车辆导航、人机交互、医学成像等领域有着广泛的应用。虽然近几十年来,视觉跟踪的研究越来越受到人们的关注,并取得了显著的进展,但由于存在部分遮挡、运动模糊、光照变化、运动突变等诸多因素,视觉跟踪仍然是一个具有挑战性的课题。因此,如何设计在复杂场景下的长时间跟踪算法是亟待解决的关键问题。本文主要研究基于目标的长期跟踪的基础上,对群优化算法进行改进/
在产业转型与人工成本增加等因素的驱动下,工业机器人在人们各类生产作业中带来的实际效益愈加突出。并联机器人的理论分析与技术应用已成为多个经济体在工业机器人领域的研
清廷在平定准噶尔汗国叛乱之际,本着“因俗而治”的思想令大和卓管理回部事务,最终,两和卓的叛乱打破了清廷治理回疆的初衷。乾隆二十四年(1759),清廷平定两和卓之乱,为了实现回部的长期稳定局面,清廷在平定大小和卓叛乱后,即着手搜寻和卓子嗣,并明确了“罪不及妻孥”的思想,将访查到的和卓后裔解京安置。随着大小和卓的被擒杀,滞留南疆及巴达克山的和卓家眷也被解往京师,然而百密一疏的是,大和卓之妻所生之萨木萨
随着人口老龄化和劳动力成本不断攀升,我国第一次人口红利正在消失,而人力资本的积累和提高,孕育着我国第二次人口红利的形成和到来(厉以宁,2015),未来的劳动力市场,会更加看重劳动力的质量(原新等,2017),可见,能力要素对劳动者的未来发展至关重要。自21世纪初以来,大量的研究表明,企业对劳动者的能力要求不仅包括认知能力,非认知能力也得到了同等程度的重视,如Green等(1998)研究发现,招聘主
随着企业规模的扩大化和业务的国际化,海外经营管理成为了企业在国际化经营中极具核心竞争力的重要组成部分。国际事务的增长促使越来越多的员工被派往海外进行国际经营和学
随着三维显示技术的发展,三维图像被广泛应用于娱乐、影视、医疗等领域。然而三维图像资源存在着非法传播、篡改等一系列信息安全问题,这无疑侵害了版权拥有者的合法权利。在