【摘 要】
:
当今信息时代,面对海量的图像、文本、音视频等多种形式的信息,在进行处理时如何快速准确地获取到各类工作所需要的信息,从而提升工作效率,是当前信息领域的研究大方向。其中对文本数据的研究、即自然语言处理中,信息抽取以其对文本最基本要素信息等的处理,成为重点研究任务。信息抽取有三个子任务,分别为实体抽取、关系抽取和事件抽取。其中实体抽取和关系抽取是很多复杂自然语言处理任务的起始任务,其结果对下游任务影响很
论文部分内容阅读
当今信息时代,面对海量的图像、文本、音视频等多种形式的信息,在进行处理时如何快速准确地获取到各类工作所需要的信息,从而提升工作效率,是当前信息领域的研究大方向。其中对文本数据的研究、即自然语言处理中,信息抽取以其对文本最基本要素信息等的处理,成为重点研究任务。信息抽取有三个子任务,分别为实体抽取、关系抽取和事件抽取。其中实体抽取和关系抽取是很多复杂自然语言处理任务的起始任务,其结果对下游任务影响很大,因此对这两个任务的研究具有重要意义。本文通过两种常用方法——流水线和联合抽取分别构建了抽取模型,实现实体关系抽取,取得了一定的效果。本文首先根据流水线模型的思路,设计了BERT-Lattice-CRF模型,用来实现中文命名实体识别,通过BERT预训练语言模型得到具有丰富语义信息的字词向量,然后经过Lattice LSTM进行序列编码、融合文本字词特征,最后使用CRF进行序列解码,得到预测实体标签结果。在MSRA语料上达到94.73%的准确率和94.72%的F1值。本文设计了BERT-BiLSTM模型用来实现关系抽取,在输入层融合命名实体识别结果和BERT输出向量,并通过BiLSTM结合上下文信息进行编码,最终使用softmax函数预测实体关系。在开源人物关系语料上得到74.78%的准确率。本文还根据联合学习的思想设计了BERT-BiLSTM-LSTM实体关系抽取联合模型。用以考虑两个任务之间的联系,得到整体最优训练模型。模型分为三个模块,输入模块融合原始字向量、文本向量和位置向量输入BERT得到包含全文语义信息的向量,进入实体识别模块,经过BiLSTM编码及softmax分类得到实体识别结果,然后将实体标签信息以及BERT编码信息结合作为关系抽取模块的输入,经过LSTM层、全连接层和softmax预测关系类别,最终得到实体关系抽取结果。在开源人物关系语料上得到76.48%的准确率。
其他文献
随着5G移动通信的快速发展,毫米波天线日益成为当前研究和应用的热门天线形式。本文介绍了一种工作于毫米波频段的有源相控阵天线,阵面采用一体化有源阵列集成架构,T/R组件、馈电网络和阵列天线全部集成在一个多功能基板上。对所设计的有源相控阵天线进行了原理样机的研制,并进行了实验测试。
近年来随着大数据时代的发展,企业招聘也由传统的线下招聘模式逐步转变为网络在线招聘模式,在线招聘凭借着成本低、易操作、足不出户便可投递简历等便利条件已成为企业招聘的主流模式。受今年疫情影响,国内很多企业效益下降,招聘人员相应减少,而每年的高校毕业生规模却呈逐步攀升态势,导致今年就业形势更加严峻,各企业收到的简历数量也远超往年,这对在线简历的匹配及筛选提出了更大的挑战。针对目前招聘网站不能实现简历信息
近年来,高阶调制、波分复用等新兴光通信技术广泛应用于光纤通信系统中,但导致光网络结构复杂、非线性效应等问题日愈突出,严重影响光网络性能参数计算精度,基于深度学习的光网络性能参数计算,以其在处理非线性问题上先天优势,受到越来越多关注。本文围绕光性能监测技术,建立基于深度学习的光性能参数智能预测模型,计算光信噪比,色散等多个光性能参数,并合理分配智慧预测模型到光网络中云平台和设备侧,对保障光网络传输质
在当今物流行业发展迅猛的年代,物流配送路径问题已跃然成为了难点问题。配送车辆的有限性以及客户接受服务时间的差异性,限制着物流配送的服务效率和配送质量。因此优化好物流配送路径,可以直接提升配送人员的服务质量,减少物流配送成本,进而提高物流企业的经济收益。为此,本文在研究了容量约束的软时间窗物流配送路径问题的基础上,建立数学模型,并对蚁群算法进行优化,然后运用优化后的蚁群算法求解带软时间窗的物流配送问
松材线虫是一种毁灭性的森林病虫,松材线虫早期发现是对抗松材线虫病的最有效手段,因此,松材线虫病监测技术是松材线虫病防控成功与否的关键。目前,林业部门在很多松林区域仍然依赖人工普查的方式防控疫情,普查效率不高,结合无人机航拍技术、图像处理和机器学习技术的松材线虫病疫情防治手段是重要研究对象。目标计数算法是指计算机通过对静态图像或动态视频处理获取图像中目标的数量的过程。本文提出了一种基于神经网络的松材
深度学习算法在计算机视觉领域取得了巨大成功,但有研究指出深度学习模型很容易受到对抗样本的攻击从而做出错误的决策。这对深度学习的进一步发展提出了挑战,也促使研究者更多关注对抗样本攻击与深度学习安全之间的关系。目前主流的攻击算法有多种形式,可以根据不同情况下的深度学习模型进行针对攻击。主流的研究方向包括提高攻击成功率,降低对抗样本生成的资源开销以及贴近真实攻击场景的黑盒攻击。本文围绕对抗样本展开研究,
长距离的温度监测在工程实际场景中有着广泛的用途,在输气管线泄漏监测、高压输电线路以及电缆廊道等大范围、长距离场景中都需要对温度进行准确、快速且高空间密度的测量监控。近年来,在光纤传感领域,基于拉曼散射的分布式温度测量系统、基于布里渊散射的光时域分析仪以及基于光纤光栅的温度测量系统已经大量投入了实际使用,这些产品在传感距离上实现突破时往往很难兼顾测量精度和响应时间等其他指标,或者精度高响应快但是传感
随着我国经济高速发展,园区广泛建设,城市化、信息化、应用化逐渐融为一体,水平不断提高,“智慧城市”“智慧园区”理念深入人心。当前智慧园区监控水平还有待提高,存在如操作体验不强、监控系统单一、管理困难、维护成本高等问题,应把信息三维可视化、监控安防统一化、管理维护人性化有机地结合起来。本文基于三维虚拟地球引擎Cesium对园区内强弱电信息进行二三维可视化监控系统的设计与开发,有效提升了监控管理和信息
相位敏感型光时域反射计(Phase-sensitive Optical Time Domain Reflectometer,Φ-OTDR)是一种新型全分布式光纤传感技术,能够承受较高压力,并且检测范围很广,而由于光纤的特殊性,它还能够耐腐蚀,灵敏度也特别高,自然就成为了通信等各个领域研究发展的一种重要技术。相比于其他现有的光纤传感技术,Φ-OTDR的主要优势在于能够检测更加微弱的外界振动信息,更为
在享受时代和网络不断向前发展所带来的服务和技术的同时,也面临着网络发展时代变化带来的种种问题和挑战。僵尸网络就是其中较为突出的一种,可实施盗窃,入侵,远程操作肉鸡等多种攻击行为。能够通过网络流量,而不是后知后觉地监视受感染主机的方式,较早较快地通过网络流量来发现和识别僵尸网络是未来的一种必然选择。本文的主要工作如下:1.使用长短期记忆网络(Long Short-Term Memory,LSTM)代