深度学习模型在地理命名实体识别中的应用研究

来源 :天津师范大学 | 被引量 : 0次 | 上传用户:chenglin229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前信息时代环境下,作为信息载体的数据其规模不断扩大,在海量的文本数据描述中,蕴含了大量的地理命名实体名称。随着自然语言处理技术的发展,从文本数据中获取领域目标信息的技术也逐渐成熟。自然语言是人类对于地理世界认知结果的重要表现形式。如何从非结构化的文本数据中获取地理实体信息是当前地理信息科学遇到的难题之一。地理命名实体在自然语言描述中一般是描述表达的主体中心,如同句子的主语一样,因此获取到文本中的地理实体名称是获取对应地理信息的关键。随着中文命名实体识别的技术的成熟运用,实现地理命名实体识别任务的需求也逐渐被提出。地理命名实体识别技术是从文本数据中获取地理实体信息的基础。本文在当前使用广泛的自然语言处理模型BERT(Bidirectional Encoder Representation from Transformers)模型的基础上,结合长短期记忆模型(Long Short-Term Memory,LSTM)和随机向量场模型(Conditional Random Fields,CRF)的特点,实现了从非结构化的文本数据中识别地理命名实体名称,主要研究内容包括:(1)首先按照中文命名实体识别原理,使用基于规则匹配和统计的识别方法对实验数据进行命名实体识别研究。分析地理命名实体在中文描述表达特征,根据地理实体名称的特点来设计文本表示的转化方法,并总结地理命名实体识别任务的步骤和需要解决的问题,为使用深度学习方法进行地理命名实体识别任务提供算法原理选择依据。(2)针对传统命名体实体识别方法依赖于外部知识库和人工参与处理过程的问题特点。本文使用了目前较为流行的深度学习模型BILSTM和CRF相结合的基准模型,将实验数据以字符的形式输入到BILSTM模型中,对字符进行token标记,通过随机向量场模型进行字符之间的依赖关系分析,最后得到符合现实结果的最优序列标签。通过实验验证,基于BILSTM和CRF模型进行地理命名实体识别可以有效的提高从文本数据中获取地理实体名称的准确率和召回率。(3)针对使用BILSTM进行地理命名实体识别任务过程中存在的字符转向量时特征表达相对单一化,不能表征文字字符的准确词意的问题。本文使用BERT+BILSTM+CRF模型,从上下文字符信息获取语义向量,从而实现地理命名实体识别任务。实验证明,该方法在地理命名实体识别的过程中,取得了94.60%的准确率、92.46%的召回率和97.52%的F1值。对比目前存在的地理命名实体识别方法,其效果更佳,证明了使用深度学习方法进行地理命名实体识别的有效性。
其他文献
川滇藏交角区域是指今川、滇、藏三省的交界区域,亦是藏族传统地理概念中的康区之一部分。清朝建立之初,清政府统治尚未稳固,川滇藏交角区域系由和硕特蒙古实际控制。由于川滇藏交角区域的战略地位十分重要,直接关系到清王朝西南边疆的稳定和对西藏管控的成效。所以随着清政府政权逐步稳固,全国局势稳定,加之清中央政府对西南边疆地区情况更加熟悉后,开始逐步加强对川滇藏交角区域的管辖,并最终实现了对该区域的直接管理。而
自21世纪以来,人文社会科学领域内的研究普遍出现人类学转向,在这样的趋势下,文学与人类学的交叉研究随着综合性的文化研究的兴盛也越来越受到学界的重视和关注,当代的“人类学”与“文学”在理论和研究范式上都发生了深刻的转变,之间的互动对话也变得更加密切,因此对文学人类学的研究范式和方法也变得更加清晰。学者最开始是从闻一多先生的神话研究、弗莱的“原型理论”以及以弗雷泽(J·G·Frazer)为代表的剑桥仪
学位
学位
学位
学位
尖扎为藏族六大姓氏中的董氏,在多麦有大十八后人及大十八玄孙之分。尖扎地处青海南部,黄河相隔,分东西两边,东邻循化,南接热贡,西接贵德,北接化隆及平安。尖扎西边有昂拉八庄、霍莫两部、坎布拉五部、噶普三族、贾乃部族等部落,很早以前,就有尖绒十八部落之称。吐蕃时期,多麦地区为汉藏之边境,据说吐蕃派往边境的军队之后裔,成为首个尖扎头人,统治尖绒十八部落。夏季,其治所在尖扎东边的尖扎滩;冬季,其治所在西边的
由于疾病、事故等原因,肢体残疾患者的人数在不断攀升,但智能假手设备还不能完全满足患者的需求。随着康复医学工程技术的进步,基于表面肌电信号(surface Electromyography signal,sEMG)的智能假手控制系统受到广泛关注。该系统有助于前臂残缺患者恢复部分肢体功能,提升患者的生活质量,因此智能假手系统的研究显得尤为重要。本文构建了基于sEMG的在线手势识别与智能假手控制系统,主
本文旨在设计一款可远程传输数据的小型露点仪,本露点仪可做实验室教学器材使用,也可用于其他领域对露点的测量。本文综述了露点仪和无线通信技术相关研究现状,以及无线通信技术在露点仪中的应用,发现目前露点仪普遍存在数据传输距离较近,仪器体积较大,造价较高,功耗较高等问题。针对这些问题,本文提出了一种可远传露点仪的总体设计方案,包括微控制器、结露检测模块、测温模块、测湿模块、显示模块和通信等模块,并通过硬件
夏季风影响过渡区是典型的生态系统过渡区和生态环境脆弱带,有关该区域地表水热传输过程以及环境生态因子对能量分配的影响研究是该特殊区域亟待解决的科学问题。本文选取夏季风影响过渡区中六种植被类型——高寒草甸、荒漠草地、玉米农田、半干旱草地、马铃薯农田及小麦农田,深入了解了夏季不同类型下垫面能量平衡和分配过程,分析了该区域Bowen比的日、季节以及年际变化,并从气候环境和生理生态两个方面探究了影响因子对不