油气勘探领域命名实体识别的研究与实现

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:long520liang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别旨在从文本中识别出有特定意义的命名实体,如人名、地名和组织机构名等。与通用领域相比,油气勘探领域的命名实体识别任务面临着多项挑战。首先,油气勘探领域缺少标注数据,高质量的标注数据在模型的学习和评估阶段都十分重要,而人工标注代价昂贵。其次,油气勘探领域的实体种类多样化,难以预先定义。另外,该领域的实体多存在组合与嵌套的情况,通用模型无法对该种实体进行准确的识别。针对以上问题,本文提出了油气勘探领域的命名实体识别方法,主要包括以下两个方面:(1)针对油气勘探领域中命名实体识别任务存在的标注数据稀缺、实体类别繁多且难以预定义,领域实体的结构复杂的问题,提出了利用领域词典的油气勘探领域中文命名实体识别模型(Named Entity Recognition Model in Oil and Gas Exploration field using domain Dictionary,OGDNER)。首先使用油气勘探领域词典对领域文本进行匹配和标注,并通过校正算法去除结果中的噪音。其次,对Auto NER的标注模式进行改进,提出“Break-Tie”标注模式,使模型更好地学习油气勘探领域实体的边界和长实体的组成。另外,模型的输入在字粒度的基础上融入了词向量和领域词典中的类别向量,从而充分利用领域知识来丰富模型的输入。最后,通过与其他模型在油气勘探领域数据集上进行实验对比,验证了该模型的有效性。(2)上述OGDNER模型在油气勘探领域的数据集上取得了较好的识别效果,但由于其在处理实体边界确定和实体分类两个任务时是流水线式的,这在一定程度上会造成误差传播的问题。因此本文利用多任务学习,将实体边界确定和实体分类任务一起训练和学习,设计共享Bi LSTM网络使模型能够充分利用两个任务的共享特征,使两个任务在训练时相互促进。并且在共享特征与任务自身的特征信息融合时引入注意力机制,减少共享特征带来的噪音,从而改善模型的识别效果。实验表明,本文采用多任务学习的方法有效的改善了油气勘探领域的命名实体识别的结果。
其他文献
油气田单井生命周期是指从井的诞生到消亡的整个过程,包括钻井、测井、生产、报废等的所有业务和数据。目前,石油勘探开发数据管理存在数据可用性差、数据检索复杂、服务对象单一等问题。因此,实现以井为单位,以时间为轴线的数据管理技术研究对于石油勘探开发数据管理具有重要意义。针对以上问题本文展开了如下研究:首先,研究了基于主题域、业务流和数据流的油气田单井生命周期本体知识划分方法,参照油气田单井生命周期和领域
学位
双层股权结构作为一种绝大多数存在证券交易所的国家与地区所普遍认同的一种上市公司治理结构,如何实现对于双层股权结构上市公司的有效监管,利用监管手段发挥制度优势,限缩可能风险,一直以来都是世界各国在允许双层股权结构公司上市时所需面对的首要问题。基于增强我国证券交易所竞争力的考量,上海证券交易所新设的科创板正式引入双层股权结构,这为我国公司提供了更多制度选择的同时,也对法律监管体系提出了更大的挑战。特别
学位
时序数据普遍存在、实用性高,与无序数据相比,在趋势预测、规律发现方面价值很高。收集时序数据时,采样间隔不固定,高频采样成本较大,样本数据偶有缺失,导致数据质量欠佳。压缩感知是数字信号处理领域一种新的采样理论,针对连续信号采样过程有很好的效果。本文将压缩感知重建用于时序数据的优化,做出以下工作。首先,针对完全随机缺失(Completely Random Missing,CRM)机制下的时序数据集缺失
学位
目前,我国陆地上大部分的含油气储层业已进入了勘探开发的中后期阶段,紧随其后的是不断加大的勘探开发难度,持续增加的人工时间及生产作业成本,油气勘探面临着越来越严峻的考验。合理利用地震数据可以有效地帮助研究人员进行储层预测,而地震属性提取是开展相关工作的基础。常规地震属性研究工作中,地震属性数据与预测对象之间关系千头万绪,如何减少工作中非必要的属性提取造成的效率低下,合理地选择地震属性是亟待解决的问题
学位
世界各国,不管是大陆法系国家还是英美法系国家都对辩护律师的权利进行了保障,这是“惩罚犯罪”与“保障人权”的内在要求。由于我国历史“无讼”文化和“善有善报,恶有恶报”的淳朴的儒家思想的长期影响,导致我们注重打击犯罪嫌疑人、被告人,对作为其委托的辩护律师持片面印象,认为辩护律师是在为“恶人脱罪”。英国哲学家培根曾经说过:“即使只有一次不公平的审判,产生的后果都要超过十次犯罪所造成的后果,不公平的审判其
学位
农村集体成员收益分配请求权属于成员权的内容。农村集体成员基于成员身份对农村集体收益享有请求分配的权利,一旦集体组织不履行分配职责或滥用分配职权,存在应分配却不分配的情形,集体成员可以通过行使收益分配请求权来实现自己的合法权益。集体收益的分配应从两个方面理解:一是集体的管理决策机构应根据法律、法规和章程的规定及时履行分配收益的职能;二是在集体收益满足分配条件时,农村集体成员享有请求集体管理决策者向自
学位
智能终端的普及与应用极大的促进了轨迹数据挖掘领域的研究与探索,得益于GPS(Global Positioning System)等导航技术的发展,这些智能终端记录了大量的移动个体的出行轨迹信息。通常而言,移动个体会使用多种不同的出行方式,这使得移动个体的完整轨迹信息会被分散地记录在不同智能终端所对应的轨迹数据库中。如何将这些分散的轨迹从这些轨迹数据库中甄别出来从而拼接成一个移动个体的完整出行轨迹是
学位
如何设计出能够自动适应不同任务环境的智能模块机器人一直是一个非常有研究价值的问题。当前,大多数模块机器人的结构和控制策略都是由研究人员针对某一特定任务环境设计出来的。这使得模块机器人在任务环境发生变化时无法自动的对结构和控制策略做出调整。为了让模块机器人能够在仅给出任务目标,但没有预先知道整个任务环境的情况下,可以自动地根据所处的场景对结构和控制策略进行调整,本文提出了以下两种算法。(1)为了令模
学位
在工业物联网(Industrial Internet of Things,IIo Ts)中,通常会安装各种无线传感器来感知环境或事件,同时安装一个或多个接收器来收集无线传感器感知到的信息,以供专业分析。对于许多工业应用,实时分析都是必须的,以确保工业环境下的应用效能和应用安全,例如石油天然气钻井中的测井应用。因此,提供延迟保障或者降低时延是工业应用环境下关注的焦点。在工业无线网络(Industri
学位
知识图谱嵌入任务旨在为知识图谱中的实体与关系生成低维的、连续的特征向量,使计算机可以通过数学运算来挖掘出知识背后的潜在语义,并应用到三元组补全,实体分类,实体解析等下游任务中。翻译模型是一类简单且有效的知识图谱嵌入模型,受到了研究者的广泛关注,目前比较流行的做法是将翻译模型与知识图谱外的实体描述信息相结合以提高嵌入质量。现有方法大多数使用Word2vec词嵌入来生成实体描述向量,而Word2vec
学位