【摘 要】
:
随着互联网信息技术的发展,网络媒体、社交帐户每天都会产生大量文本数据,这些文本数据蕴含着巨大的价值。信息抽取技术(Information Extraction,IE)能够从这些文本中挖掘有用信息。本文主要研究信息抽取技术的子任务实体关系抽取(Relation Extraction,RE)技术。该任务旨在从非结构化文本数据中抽取蕴含的实体语义关系,从而将大量非结构化数据转化成易存储、易分析的结构化数
论文部分内容阅读
随着互联网信息技术的发展,网络媒体、社交帐户每天都会产生大量文本数据,这些文本数据蕴含着巨大的价值。信息抽取技术(Information Extraction,IE)能够从这些文本中挖掘有用信息。本文主要研究信息抽取技术的子任务实体关系抽取(Relation Extraction,RE)技术。该任务旨在从非结构化文本数据中抽取蕴含的实体语义关系,从而将大量非结构化数据转化成易存储、易分析的结构化数据,该技术广泛应用于知识图谱、自动问答、搜索引擎等人工智能领域。目前,RE技术主要基于深度学习技术,分为有监督关系抽取、远程监督关系抽取等任务。深度学习技术利用神经网络模型自动抽取文本特征,如何让神经网络模型充分挖掘文本语义信息是深度学习技术的一个难点。有监督关系抽取任务需要大量训练数据作为支撑,这些数据通常需要耗费大量人力进行人工标注。远程监督关系抽取有效地改善了这一问题,通过利用远程知识库(Knowledge Base,KB),将非结构化文本中实体对与KB存有的三元组数据对齐,进行自动标注从而获得大量训练数据。然而由于实体之间关系的不确定性,远程监督引入了噪声数据。如何抑制噪声成为了 RE技术需要解决的难题。本文研究了 RE技术的基础理论和发展,国内外现状,以及卷积神经网络、生成对抗网络等深度学习技术。针对深度学习模型和抑制噪声两个方面进行了深入研究。本文的主要内容和贡献包括以下三个方面:(1)提出了一种基于位置注意力的长短期记忆神经网络(Position Attention Long Short-Term Memory Neural Network,PALSTM)。以往的深度学习模型忽略了文本中实体位置对于实体关系的重要性,使其难以充分挖掘实体上下文语义。PALSTM根据文本中每个单词相对实体的位置,基于注意力机制为每个单词分配不同的权重,通过为词向量分配注意力权重系数得到文本的向量表示。实验表明,该方法能够有效挖掘文本中实体上下文语义信息,以及各个单词对于实体的相对距离信息,从而提升关系抽取能力,在中长距离实体关系抽取中比其他模型取得了更好的准确率。(2)提出了一种基于分段卷积神经网络的生成对抗网络(Piecewise Convolution Neural Network—Generative Adversarial Network,PGAN)的模型。针对有监督关系抽取缺乏训练数据以及远程监督噪声问题,本文提出了一种启发式算法,用人工标注的训练数据替代远程知识库,自动标注无标签数据。通过启发式算法标注的噪声数据用于PGAN的对抗训练。PGAN基于PCNN编码器,通过分段卷积网络抽取句子特征。其主要包含一个生成模型和一个判别模型,生成模型为基于PCNN编码器的感知机,能够从自动标注的数据中筛选掉噪声数据。判别模型为基于PCNN编码器的关系抽取分类器,提高了抗噪声能力和关系抽取能力。实验表明基于SemEval-2010 Task 8数据集和NYT数据集,PGAN的生成模型能够有效的过滤噪声数据,判别模型优于PCNN、R-BERT等其他关系抽取模型,F1值达到 89.61%。(3)实现了一个基于上述技术的实体关系抽取系统。针对用户输入的文本数据,系统提供实体关系抽取功能。该系统主要包括数据层,模型层和可视化层。数据层基于图数据库Neo4j进行存储,Neo4j能够存储关系抽取得到的三元组数据,并提供查询功能。模型层由PALSTM和PGAN构成提供关系抽取算法。可视化层基于Django框架实现,对系统功能和数据库中存储的三元组数据查询功能做可视化展示。
其他文献
随着深度学习技术和计算机硬件的不断发展,计算机视觉领域开始大规模应用深度学习技术来实现图片的分类、目标的定位和检测等任务。行人检测作为计算机视觉中的一个重要分支在智能监控、人机交互、自动驾驶等领域扮演者重要的角色,也是人体姿态估计、行人追踪等任务的技术前提。行人检测任务是将图片中包含的行人目标以包围框的形式标记出来。随着深度学习技术的应用,行人检测的准确度有了很大的提升,但仍然存在很多问题。其一,
目标检测是计算机视觉的基础任务之一,其目的是找出图像中关注的物体,并且需要检测出物体的位置和类别。随着深度学习研究的发展,基于卷积神经网络算法的目标检测系统快速发展,基于目标检测算法的人脸识别、车辆检测等系统在当代生活中得到了广泛应用。然而,当前目标检测算法在确定物体位置和类别的准确度上还存在不足,而有效利用网络预测产生的物体候选框和物体关系能提高这两方面的准确度。因此,本文对物体候选框筛选和物体
2020年新冠疫情的爆发给社会经济发展和民众生命健康带来了巨大威胁,口罩和护目镜等个人防护用品的正确佩戴可以有效降低普通民众和医护人员感染的风险。在化工、冶炼工作场所和实验室当中,也明确要求佩戴护目镜以防止眼部损伤。但目前护目镜佩戴情况主要依赖人工检查,效率低下,耗费大量人力,因此设计并实现一个自动化的护目镜佩戴检测系统,检测进入或停留在特定场所人员的护目镜佩戴情况,是十分有必要的。本文结合实际应
移动边缘计算已成为第五代移动通信(The 5th Generation Mobile Communication System,5G)关键性技术,其通过在网络边缘侧部署计算和存储节点,可以有效解决应用服务质量需求高而设备计算资源以及能量资源不足的问题。本文主要针对移动边缘计算系统中计算卸载优化问题,从边缘服务提供商和用户两个角度出发,研究如何在满足任务性能要求的同时,提高服务提供商的潜在效益并降低
随着微积分的诞生和发展,关于非线性微分方程的研究在实际应用中不断丰富,非线性泛函分析中的相关理论成为绝大多数学科应用中的有力支撑工具。与此同时,自然界中很多现象以及实际生活中的很多问题都可以通过数学建模,将问题转化为对应的微分方程或系统,从而应用非线性分析中的相关理论进行定性分析。随着科技工程等诸领域的迅猛发展,微分方程模型得到日益广泛的应用。因此,对于非线性微分方程解的存在性等相关性质的研究一直
随着第三次工业革命的进行,网络安全学科成为了一个重要的研究方向,而在网络安全学习的过程中,如何进行实践操作成为了一大难题。一方面是网络环境越来越复杂,实践操作需要大量设备进行组网,各种设备的连接和操作方式都必去学习研究;另一方面,由于网络安全实践操作具有破坏性,每次试验都需要重新搭建环境。因此,如何管理各种资源、构建试验需要的网络拓扑图,并能够根据拓扑图很方便地生成网络环境的方法十分具有商业价值和
在最近几年中,能够捕捉到合作和环境的协同演化动态的生态演化博弈理论吸引了越来越多的学者的注意。对于策略的演化规则,传统意义上假设个体的行为被演化驱动。对于环境状态的演化,一般由依赖于状态的环境反馈来描述。这种依赖于状态的环境反馈是启发式的。这里,我们提出另一个关于环境反馈的可替换的启发式的假设,即,带有依赖于收益的环境反馈的生态演化动力学。对于这类依赖于收益反馈动态的一般形式,我们分别给出了系统存
随着无线通信技术的迅速发展,人们对通信性能提出了更高速率和更低时延的要求,这使得毫米波与大规模MIMO(Multiple-input Multiple-output)技术相结合成为当前移动通信发展的趋势。毫米波大规模MIMO系统中巨大的天线数目、复杂的混合波束赋形结构和极高的路径损耗使得传统的信道估计方案不再适用,而压缩感知的稀疏重构算法为恢复规模庞大的毫米波信道矩阵提供了理论支撑。因此,本文利用
在现实生活中,许多现象都可以归纳为非线性发展方程的数学模型问题,人们开始对非线性发展方程的求解有了广泛的兴趣。非线性发展方程有着丰富的背景,其应用范围十分广泛,被广泛应用到生物学、数学和物理等众多领域。到目前为止,求非线性发展方程的精确解还没有形成统一的方法,因此,我们需要寻找有效的求解方法。越来越多的科学家开始研究非线性发展方程的特点,创造出了李对称分析方法,该方法在理论和应用方面都取得了很大进
近年来,无线通信领域对物理层安全通信有了更高的要求,而传统的通信技术往往具有高复杂性算法、能耗和硬件成本支出过大的问题。因此最近智能反射面(Intelligent Reflecting Surface,即 IRS)被提出并应用于无线通信系统中。IRS是无源被动的二维反射表面,可以通过软件控制IRS上反射单元的反射相位主动修改无线信道。通过设计IRS的反射相位可以在合法用户处的接收信号相干叠加同时在