【摘 要】
:
岩性是地质描述的关键指标,能反映地下油气资源的空间分布,因此测井岩性解释对地质勘察及资源开发有着重要意义。目前传统测井数据驱动的岩性识别方法存在一定的局限性:1)测井数据存在异常值、岩性样本不平衡等问题,影响岩性识别模型的训练质量;2)原始测井表征中样本相互独立,无法表示相邻采样点、测井曲线之间的耦合关系;3)不同井或地区采集的测井数据分布具有差异性,导致跨域岩性识别模型的适用性不佳。针对上述问题
论文部分内容阅读
岩性是地质描述的关键指标,能反映地下油气资源的空间分布,因此测井岩性解释对地质勘察及资源开发有着重要意义。目前传统测井数据驱动的岩性识别方法存在一定的局限性:1)测井数据存在异常值、岩性样本不平衡等问题,影响岩性识别模型的训练质量;2)原始测井表征中样本相互独立,无法表示相邻采样点、测井曲线之间的耦合关系;3)不同井或地区采集的测井数据分布具有差异性,导致跨域岩性识别模型的适用性不佳。针对上述问题,本文以中国鄂尔多斯盆地气田测井数据为研究对象,从测井数据处理和特征增强的角度出发,利用表征学习和主动学习理论方法,开展基于测井数据表征增强的跨域岩性识别方法研究,重点研究了测井数据存在非完备性、测井样本多尺度邻域关系表征缺失以及跨域数据分布差异性等问题,为提高测井岩性解释水平和油气资源勘探开发效率提供借鉴。本文主要工作如下:针对分类模型训练易受测井异常值和样本不平衡影响的问题,提出基于数据过采样和异常值检测的测井数据预处理方法。通过随机过采样(Random oversampling,ROS)算法在不改变样本的空间分布的情况下进行数据平衡,然后利用基于Copula的异常值检测(Copula-based outlier detection,COPOD)算法过滤异常样本,减少测井数据非完备性因素对岩性识别模型训练的影响。针对分类模型无法提取原始测井表征中的多尺度序列邻域信息且易受噪声干扰的问题,提出基于特征分解和过滤的测井表征增强方法。通过局部均值分解(Local mean decomposition,LMD)提取序列测井数据中的多尺度邻域信息,设计基于Shapley可加性解释的特征选择(Shapley additive explanation-based feature selection,SHAP-FS)算法过滤测井数据的冗余和噪声,提升易混淆岩性识别精度。针对跨域岩性识别中不同测井数据的分布差异性问题,提出基于主动表征学习(Active representation learning,ARL)的跨域岩性识别方法。设计基于委员会策略的主动学习岩性识别框架,用于学习目标域的测井数据分布;在此基础上,构建多粒度级联极限学习机模型,提取测井特征间的耦合信息,提高跨域岩性识别的精度和泛化性。通过验证对比实验表明,基于ROS和COPOD的测井数据预处理方法能在平衡少数类岩性样本的同时过滤测井异常值,为模型提供高质量的测井数据;基于LMD和SHAP-FS的测井表征增强方法能有效挖掘多尺度邻域信息并过滤冗余噪声,通过增强测井表征提高岩性识别精度;基于ARL的跨域岩性识别方法能高效地利用专家知识,挖掘跨域测井数据间的分布差异性和特征间的耦合关系,显著提升跨域岩性识别效果。在两组跨域岩性识别实验中,所提方法的分类精度能分别提升45%和23%。
其他文献
网络流量异常分析作为网络安全防御的关键技术,包括网络流量异常检测与异常分类技术,具有十分重要的研究价值。网络流量是从原始网络数据包采集的多变量时序数据,随着网络技术的日新月异,网络流量呈现出波动快、维度高、耦合紧密等趋势。现有异常检测算法没有考虑网络流量多维特征分布的时序变化规律,将正常的网络流量周期性波动视作异常,导致误判;现有异常分类模型难以找到合适的高维特征距离度量函数,且计算开销大,导致网
读后续写是近年来提出的一种提升外语学习效率的有效方法。目前读后续写相关研究大多是从教师角度出发,立足大学生群体,对高中生在此任务中的体验和反馈关注较少。鉴于此,本研究试图探究高中生在读后续写任务中所遇到的写作障碍、写作障碍与续写水平之间的关系以及学生产生写作障碍的原因。本研究的研究对象是全国范围内来自不同年级的有过读后续写经历的高中生,研究对2595位学生进行了问卷调查,并对其中10位学生进行了深
语言迁移是指一个人一种语言的知识对其他语言的知识和使用的影响,根据其方向可分为正向迁移与反向迁移。我国反向迁移研究存在理论介绍居多,实证研究较少,语料搜集不够,调查对象不全等问题,需要更多实证研究更具体、科学地考察,以更全面认识二语对一语的影响及迁移现象。翻译过程中二语会无形地对译者的母语语用产生影响,造成反向迁移,直接体现在译者在顺向翻译中使用欧化表达传递被译语信息。由此可见,汉语欧化与反向迁移
20世纪80年代以后,外语学习领域对以焦虑为代表的情感变量对语言学习的影响给予了更高的关注。已有研究涉及外语焦虑的影响、成因、研究工具等各个方面。多数研究表明,外语学习者的焦虑情绪对其学习表现有负面影响。然而,在二语写作研究中,鲜有研究探讨中国英语专业学生的毕业论文写作焦虑。毕业论文作为学生语言专业技能和学术成果的集中展示,部分学生无法高质量完成,这在一定程度上受到论文写作焦虑的影响。因此,有必要
新型非易失性内存(Non-Volatile Memory,NVM)具有高性能、字节访问粒度及掉电不易失的特点。为兼顾性价比,通常将非易失性内存与固态盘(Solid State Drive,SSD)混合使用,基于NVM和SSD混合结构的键值存储已成为重要研究方向。日志结构合并树(Log-Structured Merge Tree,LSM-Tree)被广泛应用于键值存储研究,但其层次结构造成的读写放大
容器是一种操作系统级虚拟化技术,具有资源利用率高,部署快速和移植性灵活等特点。然而,多容器会共享主机操作系统的内核I/O(Input/Output)栈,导致其并发执行文件操作时需竞争I/O栈中的共享资源,严重限制了容器的I/O性能。资源竞争产生的主要原因在于操作系统内核I/O栈对容器无感知。一方面,虚拟文件系统(Virtural File System,VFS)无法利用容器的层级特性,难以与层级文
云块存储(Cloud Block Storage,CBS)系统是当前云存储系统中的一种主流存储架构,云供应商通过搭建云块存储系统为租户提供虚拟块级存储设备(称为云盘)。近些年来,云上工作负载种类以及存储的数据量飞速上升,云盘数量达到数百万块,云块存储系统存储集群利用率不断增加,为云块存储系统的资源管理带来的巨大的挑战。云块存储系统中资源管理的一种主要方式是分配云盘到合适的存储集群。传统的分配策略由
信息时代下海量数据的存储和处理一直是困扰着人们的难题。在此背景下,各种新型存储技术和计算架构被提出并得以不断发展。其中,相变存储器不仅存储性能优异,而且还因其阈值转换及缓变式结晶/非晶化过程而具备模拟生物突触和神经元行为的能力,有望作为神经形态器件以实现类脑计算。然而,目前对相变存储器的神经形态应用研究仍处于初级阶段,存在着器件功能单一且性能不佳等问题。对此,本文提出了一种基于GeGaSb的相变存
测井曲线聚类属于石油勘探领域的地层分布区域性宏观研究,聚类后不同的井形成的集合可以使用相同方法分析,打破对测井“一孔之见”的传统认识,帮助测井解释人员形成全面完整的地层分析。测井曲线聚类的实现可以为相关工作人员提供新的测井曲线分析工具,为测井曲线分析带来更多的选择,具有重要的现实意义。测井曲线聚类通常包括预处理、相似度计算和曲线聚类三步。曲线预处理实现曲线的深度对齐和曲线数据量压缩。曲线相似度计算
近年来,随着信息化、数字化进程的加速发展,中国数据中心产业规模增长迅猛,造成了行业能耗以及碳排放急速增长。此外,“碳达峰·碳中和”的背景下相关部门对数据中心行业的用能管理提出了高能效、低排放的要求。因此,将分布式新能源发电接入数据中心能源系统是必然的趋势。显然,接入分布式新能源发电可以降低数据中心对电网的依赖、降低碳排放量。然而,新能源的高不确定性和强随机性,会对数据中心能源系统的供能安全性、稳定