【摘 要】
:
关系抽取是自动从文本序列中检测和识别出实体之间语义关系的任务。该任务是知识工程中知识获取的核心基础技术,能够赋予人工智能更精准的知识理解能力。知识获取依赖于人类知识载体之一的海量文本数据,而这些文本数据随着信息的爆炸式增长被快速淹没在信息浪潮中。因此,挖掘这些文本数据中所蕴含的知识,既是自然语言处理的理论需求,也是人类文明传承的现实需要。目前,基于深度学习的自然语言处理技术在关系抽取领域已经取得长
论文部分内容阅读
关系抽取是自动从文本序列中检测和识别出实体之间语义关系的任务。该任务是知识工程中知识获取的核心基础技术,能够赋予人工智能更精准的知识理解能力。知识获取依赖于人类知识载体之一的海量文本数据,而这些文本数据随着信息的爆炸式增长被快速淹没在信息浪潮中。因此,挖掘这些文本数据中所蕴含的知识,既是自然语言处理的理论需求,也是人类文明传承的现实需要。目前,基于深度学习的自然语言处理技术在关系抽取领域已经取得长足发展,有效推动了不同粒度文本中知识的发现。然而,关系抽取技术在实际研究过程中仍然面临一些问题需要解决。首先,实体关系的方向性语义缺失,使得关系的判别缺乏对文本蕴含语义特征的利用;其次,文档级实体关系证据隐含,支撑实体关系的语义难以被感知;最后,实体关系的关键性语义难以被挖掘,需要在长距离的实体间构建有效的语义依赖关系。因此,论文围绕句子级和文档级关系抽取中存在的方向性语义缺失问题、证据隐含问题、长距离语义依赖问题,从句法、语篇等语言学知识视角展开系统性研究。主要研究内容如下:(1)针对实体关系方向性语义缺失问题,论文提出了基于句法关系的方向敏感型句子级关系抽取算法。常规的句内关系抽取任务忽略了文本中针对实体对关系方向性语义的表征,难以进一步提高具有明显方向性实体关系的判别性能。本文利用依存句法树结构信息,构建了具有方向差异性的双向依存路径结构。在双向依存路径结构的基础上,利用文本和依存路径的字符级特征构建平行的注意力机制,捕获文本中的语义词和关系方向性词汇。同时,为了缓解依存路径存在的过度裁剪问题,本文提出了新的文本修剪策略,不仅降低了文本输入量,还提高了模型性能。最后模型在两个数据集上的实验结果证明,模型的方向性语义感知能力优于其他方法。(2)针对实体关系证据隐含问题,论文提出了基于文本片段间语篇关系的文档级关系抽取方法。文档级关系抽取需要处理更加复杂的文本、理解更加多样性的语义,传统基于序列的方法无法获取分散在长文本中的隐含证据,这需要模型具备更强大的针对文档中隐含证据的筛选能力以及基于证据的推理能力。本文利用文档中文本片段之间蕴含的语篇关系来构建文档图,通过文档图创建了实体对间的语义关联,同时利用语篇关系选择合适的、隐含的证据。然后利用实体感知注意力机制,在文本片段中推理实体对间的关系。实验结果证明模型相较于现有方法在性能方面具有明显优势,所提方法构建了多层的证据筛选机制且展示了清晰的证据推理过程。(3)针对实体关系长距离语义依赖问题,论文提出了基于句法与语篇关系融合的文档级关系抽取方法。传统的句内关系抽取通过在依存句法树中找最短路径可以得到句内最短语义依赖,而文档级关系抽取由于文本的复杂性难以找到实体间有效的语义依赖。本文利用语篇关系与句法关系构造了字符级的文档图,并使用斯坦纳树算法在文档图中抽取最小生成树形成关键字符路径,获得与实体对最相关的语义依赖。同时模型在文字和图形两个层面构建了双层注意力权重值来增强关键字符的语义特征表达,并在训练过程中使用后置部署方法提高模型性能。实验结果表明,模型能在文档图中构建有效的语义依赖路径,且性能优于其它基于图的开源模型。
其他文献
PolSAR数据中,由于地物目标物理特征不同,地物目标会表现出方位对称性或非方位对称性。传统PolSAR分解算法都是基于方位对称性假设进行构建,分解结果中非方位对称的地物目标和方位对称的地物目标之间会出现散射特征混淆和误分类问题。大量的PolSAR分解算法试图通过增加物理模型来解决这一问题,模型的增加导致算法执行复杂度增大,而算法的效果改善却不明显。因此,对于后续PolSAR分解算法的研发,不仅要
目的和背景:本研究的主要目的是探讨runt相关转录因子3(RUNX3)基因多态性与出现抗线粒体抗体(AMA)的中国汉族原发性胆汁性胆管炎(PBC)患者之间的发病率及临床意义的相关性。PBC具有很强的遗传易感性。AMA的出现是诊断PBC的血清学标志。方法:采用Taq Man探针实时PCR法对RUNX3基因上的tag SNP rs7529070进行基因分型。用酶联免疫吸附实验(ELISA)和免疫印迹法
随着移动互联网的兴起,不同功能的在线社交网络平台得到了蓬勃发展,为了充分利用这些平台的功能,人们逐渐习惯同时使用多个在线社交网络服务。这种多社交网络行为以及网络间重叠用户的存在为原本孤立的平台构建了逻辑上的联系,社交网络研究内容逐渐从传统的单一网络向多网络结合转变和发展。由于各种原因,多个平台间的信息通常缺少显式的关联关系,这种稀疏的显式关系导致了平台间的信息隔离,针对该问题,本文对跨社交网络的信
借鉴了昆虫毛发感知系统敏感机理的微机电(Micro-electro-mechanical system,MEMS)仿生毛发传感器是一种典型的多功能、小型化的新型传感器,可以实现对于空气流速、加速度、声音、振动等信号的检测,有望广泛应用于微自主系统的流速感知、运动控制、环境识别等智能传感领域。区别于传统的电容式、压电式或者压阻式敏感机理,本文首次将基于模态局部化效应的弱耦合谐振器应用于仿生毛发传感器
深空探测作为人类太空探索的重要活动之一,是人类认识自己、认识宇宙最直接的方式。而100天文单位的太阳系边际探测作为当前人类的深空探测中距离最远的一类型任务,一直是国际空间科学研究的前沿领域。而在探测任务中,地面如何在如此遥远的距离上、如此微弱的信号下对航天器距离、速度和角度等参数测量,如何在长达数十年的任务周期中提高任务成功率,如何在单次任务中尽可能实现多的科学探测任务,都是在我国未来的100天文
在日常生活中,常常采用生物特征识别技术保护个人隐私和信息安全。指静脉识别技术依靠手指掌侧浅静脉进行身份识别,具有安全性高、活体识别、精度高等优点,是生物特征识别领域的研究热点。针对现有传统的基于特征提取以及基于机器学习的手指静脉识别模型的不足,本论文以手指静脉图像为研究对象,以深度学习技术、度量学习技术为理论基础,利用深度度量学习方法、深度生成模型以及增量学习方法对指静脉图像识别问题展开研究,并通
人类科技的繁荣带来电子技术的发展和航空航天的进步,导致日常生活因为使用更多的电子产品和空间通信,从而更容易受到日地之间空间环境的影响。因为地基望远镜比空间望远镜更易于安装和维护,且更加稳定,所以目前最常用的太阳望远镜都是地基的。地基望远镜系统的天文观测由于大气湍流的存在导致光波的严重波前畸变,直接观测成像的分辨力远远达不到所期望的望远镜理论衍射极限。当从地球观测太阳时,这些影响尤其严重。自适应光学
抖动作为衡量数据传输稳定性和可靠性的核心指标,在超大规模集成电路(Integrated Circuits,ICs)、高速串行链路(High-speed Serial Links,HSSLs)以及云计算(Cloud Computing)的测试分析中发挥重要作用。随着数字技术的飞速发展,抖动测试、分析和定位等相关技术的研究已经滞后于数字系统工作速率的快速提升。抖动分析建模技术已经逐渐成为高速数字系统设
随着社会发展对清洁能源需求的提高,特别是个人便携式电子设备和电动汽车数量需求的快速增长,发展新型电化学储能设备受到了人们极大的关注。其中,钠离子电池因丰富的钠源储量,以及与锂相似的物理化学性质,被广泛认为是未来最有潜力的电网级能量存储与转换设备。然而,与传统的锂离子电池相比,有关钠离子电池的深入研究还处于起步阶段。尤其是,至关重要的电极材料在钠离子电池中的微结构与相演变行为,离子传输的动力学过程,
声学多普勒测流技术是一种在水下利用声波测量水体流速等特性的遥测技术。由于具有不干扰水流场、测量速度快、测量精度高、测量参数多和测量成本低等诸多优势,声学多普勒测流技术被广泛应用于海洋、江河、湖泊和沟渠等多种环境的水体测量。由于测流环境具有多样性、时变性和复杂性,为在多种环境中实现高性能测量,需要赋予测流仪器适应环境的能力。本文以提高声学多普勒测流仪器的环境适应性为目标,分析了几种典型环境因素对测流