基于深度学习的命名实体识别的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:mengwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理领域的关键技术之一,在信息抽取、机器翻译、知识问答等任务中发挥着基础性的作用,命名实体识别主要研究的是从非结构化文本中识别出包含特殊含义的词汇或专有名词。早期的命名实体识别方法是基于规则和词典的,这些方法严重依赖领域专家制定的规则,可移植性差,后续发展到基于统计学习的方法,此类方法通过手动特征工程,构造和提取特征,但是需要耗费大量的时间和人力成本,而且特征对信息的表现能力不稳定。随着近几年深度学习的发展和应用,基于深度学习的方法开始逐渐被应用到命名实体识别任务中,比较具有代表性的是BiLSTM-CRF模型,本文选择该模型作为基线模型进行对比实验。除此之外,中文命名实体相对于英文来说,具有实体结构复杂、类型众多等特点,并且由于中文语言本身的特点,识别任务难度更大、挑战更多。针对中文命名实体识别任务中存在的问题,本文基于深度学习的方法,设计和改进了命名实体识别的模型,并在相关数据集上进行识别性能的验证,在此基础之上,设计和开发了命名实体识别系统,主要研究工作如下:本文首先提出了一种词汇增强的字级别特征向量表示方法,该方法通过结合外部词典,构建不同类别的词集合,并将集合进行压缩和向量化,将词汇信息融入到字向量中,有效避免了词级别方法中分词任务的错误传播问题,并且将双字特征也有效整合到字向量表示中,经过实验验证,该方法在实体识别的准确率、召回率和F1值方面均实现了有效提高。此外,在基于深度学习的命名实体识别的三层架构模型的标签解码层,本文提出了实体边界检测和实体类型判别算法,该算法底层实现是基于多层感知机和softmax,在完成上下文编码层特征提取后,将特征输入到由边界检测和类型判别组成的多任务框架中进行联合训练,经过数据集上实验验证,该算法有效提升了命名实体识别的性能。最后,在前述两个研究工作的基础上,本文设计实现了一个命名实体识别展示系统,该系统可以实现对实验过程中使用的数据集内部信息和模型结构的展示,并且可以根据用户选择的数据集,以图的形式对比展示出该数据集上各模型的识别性能。
其他文献
为确保大渡河龚嘴水电站鱼道能够成功过鱼,基于龚嘴水电站坝下河段鱼类集群分布的水声学观测结果,结合研究河段水流条件,分析鱼类集群分布特征,并根据主要过鱼对象关于水力学因子的适宜性特征,提取坝下河段鱼类主要上溯通道,论证龚嘴水电站鱼道进口布置方案.结果表明:坝下河段鱼类垂向分布范围为1.15~11.62 m,主要分布在中下层水域;鱼群主要集中在河段中上游区域;鱼类上溯通道分布于靠近两侧河岸的水域,流速为0.1~1.2 m/s;在北纬29.290°~29.292°范围内,存在横跨整个河宽的鱼类集中分布区域,说明
广泛分布于天然河道浅滩的植被能够改变河流局部的水力特性和泥沙运移过程,为了解植被对弯道水流特性的影响,针对特定流量下凸岸侧含有刚性挺水植被的弯道,对植被密度、位置不同时水流特性的沿程分布规律开展试验探究.通过建立弯道水流概化模型,利用ADV采集三维流速数据,对比无植被和有植被(植被密度分别为0、2.2%和4.5%)条件下的流速分布,定性分析不同工况下植被对弯道水流紊动特性的作用,确定弯道环流的结构及强度.结果表明,凸岸侧植被的存在(在0°~90°弯段,1/4河宽区间内均匀分布)能有效削弱弯道环流强度,但对
当前我国水库大坝安全监测工作存在监测项目不完善、施工安装不规范、运行管护能力不足等问题,导致部分安全监测系统建成后不能正常运行,造成建设资金浪费甚至影响大坝安全管理工作.结合全国水库大坝安全监测系统建设与运行现状调研成果及工作经历,系统梳理大坝安全监测在规划、设计、审查、招标、施工、验收及运行管理等环节存在的一系列问题,并深度剖析水库大坝安全监测现状原因.针对性提出了改进水库大坝安全监测工作的对策和建议,包括提高对大坝安全监测工作重要性的认识,加大安全监测培训力度,研究出台大坝安全监测管理办法,组建大坝安
针对水库大坝巡视检查网络培训需求,研究严肃游戏,提出水库大坝巡视检查培训系统架构,探讨大坝BIM建模、巡检点和缺陷三维建模、水库枢纽场景仿真等关键技术,分析水库大坝巡视检查要求、方法、设备、内容,研发了基于Unity3D的水库大坝巡视检查培训系统.水库大坝巡视检查培训系统由数据层、模型层和应用层组成,具有巡视检查知识、巡视检查训练、巡视检查考核和系统管理等功能.水库大坝巡视检查培训系统解决了传统培训方式中覆盖面窄、成本高、时间长等问题,可用于水库管理人员的培训,特别是没有监测设施或监测设施损坏的中小型水库
数字图像是人类在科学技术发展中认识世界的一个重要媒介。与人类视觉相似,计算机可以通过设备捕捉到的数字图像来获取和传递信息,以完成特定任务。图像分割作为数字图像处理的基础且关键的技术受到广泛研究,当前已有许多方法或模型被应用到图像分割技术中,其中层次合并树作为一种结合区域合并技术和二叉树结构的图像分割建模方法,在提供多粒度的图像描述和灵活的规则约束嵌入方面有着明显优势。然而,已有的基于层次合并树的图