基于BiLSTM+CRF的渔业标准术语识别研究

来源 :大连海洋大学 | 被引量 : 2次 | 上传用户:MAOMAO1002333141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
渔业标准是渔业生产的重要指导性文件,渔业标准命名实体识别是构建渔业标准内容服务系统的基础工作,机器翻译、信息抽取、问答系统等相关工作都依赖渔业标准的命名实体识别任务。随着计算性能的发展,深度学习方法在图像文本领域取得的重大突破,使用深度学习方法称为研究自然语言处理任务的主流方法。随着渔业信息量的不断增长,和渔业领域的特殊性,没有领域的数据集和模型来实现渔业标准命名实体识别。因此,本文将结合渔业标准文本的特殊性,研究基于深度学习的渔业标准命名实体识别方法。具体工作如下:(1)渔业标准文本标注方法的研究。针对渔业标准中命名实体识别需要利用文本结构特征进行识别、而传统的BIO标注方法无法表达实体之间的结构信息这一问题,提出了E-BIO的标注方法,该方法通过增加文本标题标签使模型可以学习到实体的上下文结构信息。经实验证明了提出的E-BIO标注方式可以有效提升具有结构特征的渔业标准文本实体的识别精度。(2)融合注意力机制的BiLSTM+CRF渔业标准命名实体识别模型研究。针对渔业标准文本序列长度较长,存在序列语义稀释的问题,在BiLSTM+CRF模型中引入注意力机制,在特征提取阶段通过生成不断变化的语义向量来解决语义稀释问题。实验表明引入注意力机制后,不同类别的渔业标准命名实体的准确率均达到了90%以上,召回率均在85%以上,相较于传统BiLSTM+CRF模型取得了较大提升。(3)渔业标准命名实体识别语料数据增广方法研究。针对渔业标准文本语料库中水产品名称等命名实体存在样本分布稀疏现象、模型无法学习较多的实体特征而导致该类实体识别效果差的问题,在对渔业标准中水产品名称等命名实体的特点进行分析的基础上,提出了融合同类词替换和基于上下文特征保护的随机删除的渔业标准命名实体识别语料数据增广方法,该方法将“水产品名称”视为目标词进行同类水产品名称词语替换,在保护上下文特征的情况下对句子进行随机删除操作以增加样本多样性。实验表明,本研究提出的两种数据增广算法可以有效的提升该类实体的识别效果。
其他文献
脑内大动脉密度增高是急性缺血性脑梗死在头颅CT平扫上出现的早期影像学表现,称之为动脉高密度征(HAS),其具有较高的特异性.国内外报道较多的是大脑中动脉高密度征(HMCAS),而对后
本文通过环氧树脂E51与叠氮化钠反应,合成叠氮化环氧树脂(E51-N3),并采用多种手段对其结构进行表征。利用合成的E51-N3与N, N, N’, N’-四炔丙基-4, 4’-二氨基-二苯甲烷(TPDDM
病历摘要患儿 7岁 ,男性。主因双下肢行走无力 ,易跌跤 5年半于 2 0 0 2年 5月 1 4日入院。患儿出生后 1 1个月时其母发现患儿睡眠时足外翻 ,且双下肢活动不如同龄儿有力 ,但
平原河网农村河道大多属于中小河流的支流末端,也是中小河流的重要组成部分,不但承担着小区域范围内的行洪排涝及灌溉供水功能,同时还承接了农业生产污水和居民生活污水排放
目的观察不同剂量右美托咪定(DEX)对体外循环下(CPB)心脏瓣膜手术患者肺损伤的保护作用。方法择期CPB心脏瓣膜手术患者96例,按随机数字表法分为4组:c组、DEX1组、DEX2组和DEX3组,各2
将与质量传递有关的表面更新模型(surfacerenewalmodel)与微观涡流模型(eddycellmodel)引入到纳米材料的制备中,并通过自制两级反应器成功制备出粒径较小、结晶度较高的MgAl-CO3 L
国发[2017]49号 关于印发划转部分国有资本充实社保基金实施方案的通知国办发[2017]87号 关于印发消防安全责任制实施办法的通知国办发[2017]90号 关于创建“中国制造2025”
目的:研究长链非编码RNA(lncRNA)FAM83H-AS1在贲门腺癌组织及胃癌细胞系中的表达情况,并分析其表达与患者临床病理参数的关系。研究敲低lncRNA FAM83H-AS1后,对胃癌细胞系体外增殖、迁移、侵袭能力的影响。方法:1.使用实时荧光定量逆转录多聚核苷酸酶链式反应(Real-time quantitative polymerase chain reaction,RT-qPCR)的
中医药在卵巢癌恶性肿瘤的治疗中发挥着积极作用,本文分别从辨证分型、经典方药、常用中成药、单秘验方、针灸治疗五个方面对卵巢癌中医治疗的研究进展进行综述,发现中医药在
竖直地埋管的换热性能是影响地源热泵系统能源利用效率的关键因素,其热阻主要来源于地埋管周围的岩土。竖直地埋管周围地质情况复杂,竖向可能会穿越不同的岩土层,且部分岩土