【摘 要】
:
知识抽取可以将半结构化和非结构化的文本类数据转化为结构化的数据,为构建知识图谱,问答系统,知识库建立等自然语言处理领域的子任务所使用。而在现实应用中,知识抽取面临许多的挑战,一方面对于中文命名实体识别(NER)任务,只有非常少量的标注数据。中文命名实体识别和汉语分词(CWS)任务有许多相似的词边界。每个任务中也有特定的特性。然而,现有的中文命名实体识别方法要么没有充分利用语料中的词边界信息,要么无
【基金项目】
:
NSFC-广东联合基金,工业过程数据实时获取与知识自动化,编号:U1701262;
论文部分内容阅读
知识抽取可以将半结构化和非结构化的文本类数据转化为结构化的数据,为构建知识图谱,问答系统,知识库建立等自然语言处理领域的子任务所使用。而在现实应用中,知识抽取面临许多的挑战,一方面对于中文命名实体识别(NER)任务,只有非常少量的标注数据。中文命名实体识别和汉语分词(CWS)任务有许多相似的词边界。每个任务中也有特定的特性。然而,现有的中文命名实体识别方法要么没有充分利用语料中的词边界信息,要么无法对语料中的特定信息进行过滤。另一方面,对于关系抽取,没有办法充分利用所有含信息的句子,并且经常出现错误的标注。针对这些问题,本文研究了现有的中文命名实体识别和关系抽取模型,整理分析了其优点和不足,提出了两种模型。主要有如下工作内容:1)针对没有充分利用语料中的词边界信息的问题,本文提出了一种新的对抗迁移学习框架,以充分利用任务共享边界信息,防止任务特定特征。此外,由于任意字符可以在预测实体类型时提供重要线索,我们利用自我注意力机制来显式地捕捉两个标记之间的长期依赖关系。实验结果表明,本文提出的模型显著且一致地优于其他传统方法。2)针对不能抽取重叠和多重关系的问题,本文提出了一种基于新分解策略的端到端序列标注框架,用于实体和关系的联合提取。实验结果表明,对原任务的功能分解简化了学习过程,获得了更好的整体学习效果,在三个公共数据集上达到了新的水平。进一步的分析表明,我们的模型能够处理正常的、重叠的和多重关系的提取。3)将本文提出的两种模型应用于电力设备诊断平台的构建中,实现了电力设备文本的实体识别及关系抽取。
其他文献
全球海洋面积巨大且拥有丰富的各类自然资源,各个国家对于海洋资源的开发都有较高程度的重视。我国也在长期的发展规划中将海洋强国建设作为目标之一。海底沉积物是海洋的重要组成部分,海底沉积物的探测也是海洋探测工程的重要对象,对海底测绘、资源勘探、海洋国防有重要意义。为了在实验室中模拟海底原位观测系统的工作,对不同的贯入方式进行研究,对采样头的测量同步采样设计进行验证,设计海底原位观测模拟实验台,在实验室进
钛合金具有优良的使用性能,如低密度、耐腐蚀性、比强度高等,在航空,生物医疗和其他领域得到广泛应用。然而,由于具有优良性能的同时其低导热率,小的弹性模量和高化学活性也导致钛合金在加工时难以实现高表面质量,这严重限制了钛合金的快速应用发展。随着生物医疗事业的发展,医用植入物的表面微结构对加工精度和表面质量的要求越来越高。超精密加工可实现纳米级表面粗糙度和亚微米形状精度的表面微结构阵列,但是钛合金切削时
骨头是生物体最重要的器官之一,是支持生物体进行正常生理活动的关键器官。骨在一定程度上具有自我再生的特质,但面对生物体产生的过大的骨缺损,骨的自修复能力会受到严重限制。如何更好地对由于体外创伤、体内激素及肿瘤创伤导致的大段的骨缺损部位进行骨修复,成为医学科学上热门探究的方向。在临床治疗骨缺损疾病所被常使用的自体、异体骨修复或金属移植技术存在材料来源受限或存在严重并发症等问题,因组织工程能通过有效的材
细胞检测是在生物医学的一项重要领域。无论是生物医学领域或是临床医学领域都有着不可替代的作用。而现如今对于退行性和创伤性关节软骨损伤的问题,医学界开始将骨组织工程技术应用到其中,骨组织工程技术包括了3D打印技术、体外细胞培养以及细胞定向诱导分化等诸多分支,其中细胞检测也扮演着不可或缺的作用。为了保证细胞培养的可靠性,传统染色需要牺牲一批实验细胞且实验方法较为复杂。随着深度学习的快速发展,也为细胞异常
目前电子产品朝着轻、薄、短、小化的趋势发展,集成电路体积越来越小、功能越来越强、引脚数越来越多、信号传输速度越来越快。芯片的集成度不断提高,与其匹配的芯片封装技术也不断发展。扇出型封装技术凭借高密度、低厚度、高性能等突出优点,成为封装技术新的方向。推动高密度封装技术发展的关键在于互连线路的制造水平和封装工艺技术的进步。互连线路制造技术成为当前封装技术的一大技术要点。随着封装及互连线路向高密度、高精
高分辨率图像具有画质清晰、色彩丰富等优点,广泛应用于安全监控、医疗成像、自动驾驶、视频直播等生活场景。然而现实生活中,图像成像过程受环境噪声、欠采样等因素影响,实际应用获得的图像质量较低,难以满足人们的需求。图像超分辨率技术通过软件算法将低分辨率图像重建为高分辨率图像,是计算机视觉领域的研究热点。随着深度学习的快速发展,基于卷积神经网络的图像超分辨率重建已经取得了长足的进步,但是目前仍然存在许多问
物联网技术(IoT)是信息科技产业的第三次革命,通过把信息传感装置与互联网连接起来,实现设备的“高效、节能、安全、环保”智能化识别和管理,是制造业实现产业升级的必然途径。胀断机床是连杆胀断工艺的关键设备,论文针对广东工业大学研制的汽车连杆胀断机床,设计了一套基于物联网技术的远程监控系统,用于实时采集胀断机床液压系统的压力与温度数据,并将其上传至网络监控平台,实现对液压监控系统的远程监控与分析,实时
伸缩臂叉车是一种具有承载、运输、越野等功能的工程车辆,常用于农场、码头口岸、厂区等场所。伸缩臂叉车因结构复杂,参数配置不合理等原因,容易在行驶工况中产生共振问题,若发生共振,其部件加速度则会放大10-20倍,峰值加速度达到1500mm/s,将会严重损害到叉车的使用年限且容易造成操作人员驾驶疲劳,因此如何抑制伸缩臂叉车的共振一直以来都是企业优先考虑的问题。本论文依托某重工企业项目,研究了某型号复杂工
钛及钛合金材料具有比强度高、疲劳强度高和生物相容性好等性能优势,已经广泛地应用在航空航天、军事和医疗等领域。相比传统的制造技术,金属增材制造(3D打印)技术可以成形结构复杂且性能优异的零件。TC4合金粉末是目前主流的金属增材制造技术原材料,粉末的性能对成形件的缺陷和性能均会产生影响,为保证增材制造钛合金成形件的质量,TC4合金粉末需要满足球形度高、形貌好和粒径小等特点。现阶段,电极感应熔炼气雾化(
在中国制造2025计划的推动下,信息物理融合系统(CPS,Cyber-Physical Systems)成为当前智能制造和工业数字化、信息化的重要研究热点。分布式架构的CPS拥有大量异构设备,这些异构设备每时每刻产生大量的时序数据,这些数据通过有线网络、无线网络和本地网关等进行数据传输,如何对它们进行实时采集、传输和监控是关系到企业管理高效性和变化适应性响的关键问题。现有监控系统存在数据采集协议不