【摘 要】
:
命名实体识别任务是自然语言处理领域中机器翻译、关系抽取和知识图谱等一系列高层任务的基础,具有重要的研究意义。由于中文语言本身具有复杂性,因此其是命名实体识别研究的一大难点。本文以中文命名实体为研究对象,对命名实体识别主流的深度学习方法进行探究。针对传统的字向量特征表达能力不足和深层网络模型保留更长期记忆能力较弱的问题,提出了一种基于特征融合和嵌套LSTM的命名实体识别方法。该方法通过特征向量融合模
论文部分内容阅读
命名实体识别任务是自然语言处理领域中机器翻译、关系抽取和知识图谱等一系列高层任务的基础,具有重要的研究意义。由于中文语言本身具有复杂性,因此其是命名实体识别研究的一大难点。本文以中文命名实体为研究对象,对命名实体识别主流的深度学习方法进行探究。针对传统的字向量特征表达能力不足和深层网络模型保留更长期记忆能力较弱的问题,提出了一种基于特征融合和嵌套LSTM的命名实体识别方法。该方法通过特征向量融合模型进而生成特征表达能力更强的字向量,然后输入到可保留更长期记忆的Bi_NLSTM-CRF网络模型中进行特征提取和标签解码操作,最终得到命名实体识别结果。本文主要研究内容包括以下两部分:(1)基于注意力机制和五笔特征的特征向量融合模型。传统的字向量特征较为单一,因此导致特征表达能力不足,针对此问题本文提出了一个基于注意力机制和五笔特征的特征向量融合模型。该特征向量融合模型包括预训练字向量表示、五笔字形特征提取和向量融合三个模块。首先在预训练字向量表示模块和五笔字形特征提取模块中分别得到word2vec预训练字向量与五笔字形特征向量,然后在向量融合模块中对两个特征向量进行权重计算、加权求和以及重码判断,最终得到该模型的字向量。该特征向量融合模型在尽可能减少冗余信息引入的前提下,有效的融合了字形和字义两方面的特征,进而增强了字向量的特征表达能力,为Bi_NLSTM-CRF网络模型提供了高质量的字向量输入。(2)基于嵌套LSTM的Bi_NLSTM-CRF网络模型。命名实体识别的深层网络模型保留更长期记忆的能力较弱,针对此问题本文提出了一个Bi_NLSTM-CRF网络模型,首先该模型以特征向量融合模型生成的字向量作为输入,利用深层双向嵌套长短期记忆神经网络(Bi_NLSTM)进行特征提取,在保证信息传递双向性的前提下,通过嵌套式深层网络的特殊结构提高了模型保留更长期记忆的能力,因此更有效的保证了特征提取的完整性;然后将特征提取后生成的命名实体标签概率矩阵输入到条件随机场(CRF)中,进行标签解码,最终得到命名实体识别的结果。嵌套LSTM有效的提高了网络模型保留更长期记忆的能力,从而提升命名实体识别的准确率。实验结果表明,基于特征融合和嵌套LSTM的命名实体识别方法较好的提高了命名实体识别效果,在MASR数据集中测试得到F1值为91.78%,取得了较好的实验结果。
其他文献
作为海上丝绸之路与长江三角洲经济带的交汇点,南通拥有天然的江海岸线资源,而南通港在南通经济发展中占据着不可替代的主导作用。南通港港口在全国排名中一直处于同等水平,货物吞吐量增长速度较慢,因此,本文通过对南通港港口物流和腹地经济之间协同关系的研究,确定南通港港口物流与腹地经济之间是否存在协同关系,为港口投资者和政策制定者提供参考。在定性分析方面,本文对南通港的发展现状进行阐述,同时也对南通港的腹地经
水泥土材料因其经济性、环保性及便捷性被广泛应用于路基改良、基坑防护、边坡防护等工程中,在工程实践中水泥土材料经常遭受冻融循环破坏与硫酸盐侵蚀,造成水泥土材料耐久性能降低。外掺剂在水泥土材料中的合理掺入能有效提升水泥土抗冻融与侵蚀性能。论文开展了不同粉煤灰掺量(6%、8%、10%、12%)、不同玻璃纤维掺量(0.25%、0.50%、0.75%、1.00%)、不同玄武岩纤维掺量(0.5%、1.0%、1
煤炭资源是社会的稀缺资源,影响着经济成长和科技提升,一直以来通过煤矿企业投资、增加其供给量是改善国内外煤炭供求关系的常用有效途径。然而因投资规模大、因素复杂、投资回报周期长等原因的存在导致风险巨大,直接制约了煤矿项目投资的运作。为了提高煤矿企业投资风险的控制效果,更好地满足投资者的要求,本文结合煤矿企业投资项目的特点,对煤矿企业风险控制体系及其具体应用进行了研究,提出相应的有方向性的风险控制方法,
生态环境是铁路运输业和地区经济发展的基础。铁路运输业是将各经济主体连通起来的“纽带”,提高了社会经济的流通效率,但在建设期、营运过程中会给生态环境带来负担。经济的高速发展可以给铁路运输业建设和生态环境恢复治理提供支持。同样,疲软的经济可能会制约铁路运输业和生态环境的发展。研究长江经济带铁路运输业、区域经济与生态环境的耦合协调性,有助于为政府部门制定相关政策措施提供参考和借鉴,从而促进长江经济带铁路
当前,四川盆地灰霾污染严重,污染事件频繁发生。由于其特殊的地形和气候特征,四川盆地灰霾通常呈现出其独有的污染特性和形成机制。PM2.5是引发灰霾污染的关键物种,对其进行全面且深入的了解对于灰霾形成机制研究和污染减排具有重要意义。然而,以往对于该地的多数相关研究主要是基于单站点或单一季节的短期研究,基于这些结果很难对污染的整体特征进行全面了解。为进一步对四川盆地灰霾污染进行全面研究,本研究选取四川省
我国典型的贫油、少气、富煤的资源现状决定了煤炭在我国能源结构中长期保持并处于主导地位。随着科学技术的不断发展和完善,使得煤矿井下作业机械化程度不断提高,增加煤炭产量的同时,也使工作面的粉尘浓度增加。粉尘浓度的增加不仅威胁煤矿的生产安全和作业人员的身心健康,也严重制约着煤矿的绿色发展战略。如何控制粉尘浓度成为日常管理工作的重点。目前井下多采用喷雾降尘技术来进行粉尘防治。利用该技术时会存在喷嘴安装位置
近年来,在学校里迎来了一股“绘本热潮”。将绘本引入基础教育课堂中受到了国内外专家、学者的关注与支持。作为一种新的课程资源,绘本课程有着丰富的内容,大到历史、地理、文化,小到日常生活习惯等题材;绘本课程还有精美的图案,一般采用拼贴、剪纸、国画、油画、彩铅、雕塑、版画、泥塑等多样的形式来表现绘本故事。这种图文并茂,生动形象的绘本课程以润物细无声的方式影响着孩子们的思维能力,价值观,想象能力以及审美能力
信息技术日新月异,科技水平高速发展,教育信息化作为跨世纪的教育改革的一项重要内容被世界各国所重视,比如,联合国教科文组织的“教育信息化促进教学变革”计划,美国的“国家信息基础设施”与“信息高速公路”计划,欧盟的“尤里卡计划”等。我国“教育信息化2.0行动计划”中也提倡信息技术与教育深度融合,建立人才培养新形式,构建学习型社会,实现全民的终身学习。在线教育作为教育信息化的重要组成部分,可以推进教育信
近年来随着煤矿开采深度的不断加大,矿井灾害事故的发生率也在不断提高,其中水害是对矿井安全生产威胁最大的灾害之一,给国家带来的各种损失极为严重。若要做好煤矿防治水工作及解决水患问题,准确地判别出矿井突水水源是前提。文中以谢桥煤矿为研究区,在收集整理谢桥煤矿相关的水文地质资料后,以水质分析结果及水文地球化学为基础,选取主要水化学特征指标作为分析依据,对来自不同含水层水化学资料中的96个样本,采用变异系
随着我国天然气消费规模的日益增加,管道运输在五大运输方式中也占据越来越重要的位置。但是,由于输气管道使用年限过久、施工时密封圈和焊缝不严、腐蚀、第三方破坏等都会造成管道发生泄漏,燃气泄漏会使空气受到污染,甚至引发爆炸,危害城市的公共安全,造成人员伤亡。目前国内外学者对管道泄漏检测和定位技术仍在探索,找寻更优化的技术,所以建立一套可开展燃气管道泄漏检测与定位实验的系统具有十分重要的研究意义和使用价值