基于深度学习的命名实体识别研究

来源 :湖北大学 | 被引量 : 0次 | 上传用户:jsxhshh123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网海量信息的数据中,文本是最主要的表现形式,这些文本信息多以非结构化的形式呈现出来。命名实体识别技术可以从非结构化的文本中识别人名和地名等含有特定意义的实体。命名实体识别的结果可以用于关系抽取、事件抽取、知识图谱构建等下游任务中,其结果的好坏直接影响下游任务的效果。命名实体识别任务根据命名实体是否嵌套分为非嵌套命名实体识别和嵌套命名实体识别,本文对这两个任务进行研究。具体的研究内容如下:(1)非嵌套命名实体识别方法的研究。针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型Open KG+Entity Enhanced BERT+CRF。首先从中文通用百科知识库CN-DBPedia中下载文档并用结巴分词抽取实体来扩充实体词典,然后将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆(Bi LSTM)网络中提取特征,最后经过条件随机场(CRF)修正后输出。实验结果表明,本文模型对非嵌套命名实体识别的综合效果均得到有效提升,F1值均优于对比模型。(2)嵌套命名实体识别的研究。针对用机器阅读理解方法识别命名实体只考虑句子内的上下文信息,未考虑到知识库中实体级信息,本文提出了利用外部知识库改进机器阅读理解方法以增强对知识库实体信息的运用来解决嵌套命名实体识别。首先针对每类实体构建问题、文本及实体答案的三元组;然后,用BERT对三元组信息进行预训练,再通过注意力机制自适应地从知识库中选择所需实体信息,并将所选实体信息与BERT融合以增强上下文和实体信息的联系;最后利用二进制分类器实现实体答案预测。实验结果表明,本文模型对嵌套命名实体识别的综合效果均得到有效提升,F1值均优于对比模型。
其他文献
随着城市空间步入了从增量变为存量的阶段,日积月累形成的城市公共空间环境问题开始逐渐显现,在国家"十四五规划纲要"战略提出的加快推进城市更新政策以及业界从业者的行动中,城市公共空间微更新也逐渐得到了重视,其中渐进式的空间微更新已然成为了城市更新的主要模式。通过对当前的城市微更新的历史发展背景加以分析可以发现,大多采用的是以公共艺术或公共参与为指导的局部更新方法,但依旧存在许多亟待解决的问题。本文通过
学位
我国城市在增量发展的过程中遇到了诸如空间结构、治理方案和整治工作等方面的难题,在转向存量发展的过程中,需要进一步审视相关城市问题,而空间正义在空间生产和空间资源配置中所反映的公平效率正是解决城市问题有效的评价标准。本文以旧城更新为背景,以空间正义为视角,分析出城市空间存在着空间挤压、空间异化、空间隔离和空间逃逸等空间非正义现象,总结出价值失效、德性失效、情感失效和规范失效四个层面的伦理失效原因,并
学位
随着科学技术的快速发展,越来越多的信息涌进互联网,面对严重的信息过载,人们急需一种在短时间内过滤信息的手段,以获取更多感兴趣的内容。因此,推荐系统得到了迅速的发展。尽管目前有大量的关于个性化推荐的研究,但是现有的研究一般是根据用户与物品的交互历史进行推荐的,没有充分利用用户与物品的信息,如相关常识,领域知识等。知识图谱将用户与物品的交互记录与候选物品的信息在知识级别上联系起来,对推荐系统的信息进行
学位
传统外部裂纹的检测方法主要包括人眼识别、涡流、射线、电磁、渗透、微波等检测方法,这些方法主要是利用物质的物理性质进行裂纹检测,大部分方法虽发展成熟,但同时也存在明显的不足,如人工检测耗时费力,涡流检测极易受到干扰等。基于深度学习的裂纹检测方法是现在主流的裂纹检测方法,并且已经极大地提升了裂纹检测的效率,但考虑到裂纹主要位于图像的高频部分,所以和对源图像进行处理相比,直接将高频特征信息作为深度学习模
学位
随着“十四五”开局,我国文化旅游产业走向高质量发展道路,传统以景区门票收入为主要经济来源的旅游发展模式不足以应对当下文旅融合发展的需要,开发数字创意产品可以有效为景区发展提供支撑,帮助景区脱离单纯依赖传统资源的限制,实现产业转型。在消费群体主体变更的大环境下,旅游景区所要提供的服务也需要转向文化科技体验多方融合的全域旅游模式。通过数字创意产品促进景区发展的机制研究,得出数字创意产品可以从产业、营销
学位
在故障检测、肿瘤检测、人脸识别等机器学习领域中,数据往往是不平衡的。欠采样方法是解决不平衡数据分类问题的一种重要方法,虽然在处理大规模数据时具有一定优势,但存在信息损耗、易受类重叠、噪声影响等问题。因此,本文将集成学习和马氏选择性抽样应用到欠采样中,提出了两个方法:基于自调节权重的集成方法和基于线性判别分析的马氏欠采样方法。本文主要研究内容和创新点如下:(1)针对欠采样方法存在信息损耗等问题,本文
学位
恒黑、高湿度、恒温以及有限的能量输入使得洞穴成为了世界上最为极端的环境之一,同时也使洞穴生物也成为了遗传学、生物地理学和生态学研究的热点。特别是关于洞穴生物眼睛的退化,是自达尔文《物种起源》一书发表以来,生物学家最为关心的问题之一。近年来,趋光或避光行为在越来越多的无眼洞穴生物中被报道,但关于生活在恒黑环境中的洞穴生物为何要保留感光功能?至今仍然没有统一的解释。目前主要有两种假说:1、中性选择假说
学位
屈家岭时期是新石器时代长河下,一段不可忽视的历史,屈家岭文化独具特色,具有十分重要的研究意义,也是长江中游分布范围最庞大的文化之一,它的影响范围也较广泛。而陶器作为屈家岭文化中出土数量最多的一种器物,它与史前人民的日常生活息息相关,反映出了当时的历史文化和社会思想水平,且陶器形制具有多角度的研究价值。本文对屈家岭陶器形制进行系统性地分析总结,并以此为基础,创作出适用于当今社会的形制创新产品设计,为
学位
近年来,由于城市信息化水平的日益发展,监控摄像头的数量也越来越多,摄像头的广泛使用以及深度学习的飞速发展,为智慧城市的建设打下坚实的基础,也为提高建筑效能、家用机器人、教育、保护环境等领域做出了巨大的贡献。目前人体目标检测的应用场景大部分都在室内,而当前检测算法的研究对象多为室外的行人,室外行人主要在开阔场景下采集,人体大多呈行走,直立状态,图片中的目标大多比较完整。但在室内环境下,由于空间较小,
学位
技术能对司法文书的内容进行压缩总结,生成涵盖裁判过程和事实依据的要点内容,对智慧司法的建设和应对法律信息过载具有重要意义。本文结合司法领域的文本特点,对司法文书研究其抽取式和生成式文本摘要算法。具体研究内容如下:(1)融合篇章结构的多任务学习摘要研究。针对现有抽取式摘要模型难以捕获司法文书区别于普通文本的规范性特征,本文利用文书不同结构对于摘要贡献度的不同提出一种多任务学习模型,以共享参数的方式将
学位