【摘 要】
:
信息抽取是自然语言处理中的重要分支,目的是从非结构化或半结构化的文本中抽取出结构化数据,其最关键的子任务之一是关系抽取。然而以往的传统方法在处理复杂的文本结构时并不能达到良好的效果,往往无法处理其中的关系重叠问题以及抽取过程中产生的噪声信息。本文基于深度学习方法,围绕面向复杂文本结构的关系抽取研究,提出了针对传统流水线方法和联合学习框架的两种优化方案。论文的主要研究工作和创新内容如下:(1)设计了
论文部分内容阅读
信息抽取是自然语言处理中的重要分支,目的是从非结构化或半结构化的文本中抽取出结构化数据,其最关键的子任务之一是关系抽取。然而以往的传统方法在处理复杂的文本结构时并不能达到良好的效果,往往无法处理其中的关系重叠问题以及抽取过程中产生的噪声信息。本文基于深度学习方法,围绕面向复杂文本结构的关系抽取研究,提出了针对传统流水线方法和联合学习框架的两种优化方案。论文的主要研究工作和创新内容如下:(1)设计了一种基于长短期记忆网络和相似度计算的流水线抽取方法。在使用流水线方法进行实体识别和关系分类时,实体与关系之间的关联被拆分,尤其是在存在关系重叠问题的复杂文本中,抽取结果可能会受到很大的噪声影响。长短期记忆神经网络通过训练带有标注的语料数据,能够更准确地提取特定的实体对象,结合实体关系的联合抽取标注策略,使关系抽取的模式避免过于流水线化。实验中首先使用神经网络模型完成命名实体识别,再基于传统LSTM用句子级别注意力进行关系分类,期间通过远程监督方法,引入依存句法提取结构化的实体关系以充实语义特征,根据相似度计算调整关系分类权重。经过验证发现,该优化方法相比基础的LSTM模型在中文数据集上的F1值提高了2.76%,且在不同数据集上均取得了最高的分值。实验表明该方法能够减少文本中的噪声影响,取得良好的优化效果。(2)设计了一种基于膨胀卷积和字词混合嵌入的联合关系抽取方法。模型的主要策略是基于序列到序列解码的思想,通过主实体直接预测对应关系中的客实体。首先对输入文本的字与词分别进行编码,再将获得的字词向量进行混合嵌入,并为输入序列引入位置信息。之后将获得的特征向量传入卷积神经网络中迭代训练,采用半指针半标注结构优化了汉字的编码过程,用获得的主实体对每种关系对应的客实体进行预测,使得模型的学习具有可解释性;并加入了自注意力机制,减少噪声信息影响。经实验验证,该方法在中文数据集上的F1值相比效果最好的对照模型提升了1.88%,在公共数据集上的精确率达到了87.6%,且在不同数据集上均有优秀的召回率。实验结果表明,在面对具有复杂结构的文本语料时,这种联合抽取方法不仅简化了抽取流程,解决了关系重叠问题,且具有更好的鲁棒性和泛化能力。
其他文献
微小型无人机具有小尺寸、非金属材质和低速飞行等特点,可有效降低雷达发现概率,已成为新型雷达侦察工具。无人机集群克服了单架无人机自身性能与载荷能力的不足,并凭借其远超个体累加的侦察能力,可高效完成复杂的雷达侦察任务。无人机集群任务分配通过协调无人机与任务之间的匹配关系,实现对资源的合理调配。本文研究无人机集群侦察相控阵雷达模式转移规律过程中的任务分配优化,对集群任务分配的模型与方法进行了理论研究与仿
2020年初,新冠病毒爆发,受其影响在线课程成为学生上课的主要途径,在线教育带来极大便利的同时也产生了各种各样的问题,例如:学生反馈效果差,老师授课难度大,教学质量评估难等,为了解决这类问题,本文从课程评论出发获取评价对象的情感极性。通过对在线课程评论数据进行信息提取、情感分类和聚类分析,可以了解学习者对在线课程的观点和情感,从而对在线课程进行评估。在线课程评论数据的分析对于学习者选择课程、教学者
随着网络范围和规模的不断扩大,网络入侵的威胁比以往任何时候都要严峻。网络入侵检测系统是为了防止网络入侵而部署在计算机上的一种安全工具。由于攻击方法的日益复杂,新攻击不断出现,传统的入侵检测已无法满足检测要求,因此需要探索新的方法来检测网络中的入侵。近年来得益于深度学习的快速发展以及其在大数据分析、处理上的优势。本文以深度学习中的深度神经网络和卷积神经网络为基础,建立了一种能够自主学习的检测模型,该
计算机视觉已经在人工智能这个引领全球先进科技的领域中占有举足轻重的地位,目前研究者们在常规的图像增强、图像识别、目标检测等任务中已获得出色的研究成果。然而在我们日常的工作和生活场景中,仍有许多极端环境下的与图像相关的工作容易被忽视,譬如雨天、雾天、低照度、低分辨率等场景下的图像处理工作。针对其中的低照度场景,由于拍摄设备的曝光程度以及现实场景中的光线不充足等原因,通常会导致获取的图像亮度较低,并且
立德树人是高等教育的根本任务,在科学技术高速发展的今天如何利用先进的技术手段实现精准化思政教育成为现阶段的一个研究热点。对于学困生队伍(学业困难学生)的精准化帮扶是精准化思政教育的一个研究方向,而高校现有帮扶策略多以人工统计不及格科目、下达书面预警通知为主,或以简单关联算法实现对成绩的预测。本文在现有预警系统的基础上,对采用LSTM神经网络改进学业预警系统展开研究,具体工作如下:(1)针对学生行为
近年来,随着互联网的飞速发展,传统网络已经无法管控愈发复杂的网络结构和日益增加的数据流量。为适应网络的发展和进步,诞生了一种新型的网络架构,即软件定义网络(Software Defined Network,SDN)。这种网络架构将传统以太网中的控制层和数据层分离,由控制层实施集中控制。由于SDN能够提升网络的可编程性,实现网络流量的灵活控制,因此引起了学术界的广泛关注,其中一项重点研究课题是如何提
光子晶体光纤(Photonic Crystal Fibers,PCF)集成了光子晶体带隙调控光传播和光纤导光的两个特性,故广泛应用于新型光纤传感领域。其中,D型PCF的非圆对称结构能增强纤芯模式与样品的耦合作用,提升传感性能;其平整的侧抛光结构不仅易于样品填充,还易于结构镀膜。当D型PCF与表面等离子体共振(Surface Plasmon Resonance,SPR)技术结合时,其结构优势解决了P
在人与人的交往方式中,表情是传递人类情感信息与意图的重要方式,通过表情识别技术可以有助于计算机像人类一样观察、理解和提供相应的反馈。目前表情识别技术面临两个难题:一方面无论是基于几何特征还是纹理特征的特征提取算法都存在对皱纹、凸起、凹陷等细微面部变化不敏感;另一方面现有的算法无法解决实际生活中采集到的图片光照分布不均匀、噪声干扰等问题。针对上述的问题,本文分别设计了可变形卷积网络的面部动作单元识别
形式化方法是指依赖严格的数学基础对软、硬件系统进行形式规约、开发和验证的技术。形式规约作为形式化方法的基础,通过形式语言严格描述所开发系统的模型和其需要满足的性质,包括模型规约和性质规约。而性质规约分为线性时间规约和分支时间规约,安全性和活性作为这两种性质规约中的基础属性,已经得到了广泛的研究。安全性断言系统运行时“坏”的事情不会发生,而活性断言系统运行时“好”的事情最终会发生。安全性和活性的验证
5G(The fifth generation mobile communication,第五代移动通信)网络于2019年6月在国内正式商用,5G网络有三大特点分别是高速度、低延时和广连接,其中移动边缘计算(Mobile Edge Computing,MEC)是其中的一项关键技术,其能满足用户在低时延、低能耗、隐私安全等方面的需求。但是目前MEC服务器是部署在固定地点的,当其他区域有需求时无法快速