论文部分内容阅读
摘 要:本文以钻孔数据的空间分析入手,主要研究了空间数据挖掘模型的实现,提出适合钻孔数据管理和分析的空间数据挖掘模型结构。通过趋势面分析和空间聚类两种空间分析方法探讨了矿化段之间的相关性,定性分析了矿体的总体分布情况,对矿体的分布规律进行预测评估。
关键词:钻孔数据;空间数据挖掘;趋势面分析; 聚类分析
1 引言
钻井领域数据复杂, 既有定量测量的数据, 又有定性的文字描述, 它们量纲不一、形式多样。如何把这些反映不同特性的数据结合起来, 无冗余, 而又不漏失地反映井、矿的特性, 一直是钻井领域资料解释的重点[1]。如何从庞大的数据库中挖掘出需要的信息,并将这些信息通过空间分析转化为直观的知识呈现给用户,将是本文探讨的重点内容。
2 空间数据挖掘模型
空间数据挖掘(Spatial Data Mining,SDM),也称基于空间数据库的数据挖掘和知识发现(Spatial Data Mining and Knowledge Discovery),是指从空间数据库中提取隐含的、用户感兴趣的知识、空间或其他有意义的模式[2] 。空间数据挖掘和知识发现的过程通常包括反复的试验、决策设计和用户定制,是多个步骤相互连接、反复进行人机交互的过程。Fayyad将知识发现的过程划分为九个阶段,如图1所示。
图1 空间数据挖掘(SDMKD)的主要阶段[3]
Fig1 main phases of SDMKD
空间数据挖掘主要研究空间数据的概率分布模式、聚类和分类特征,属性间的依赖关系特征等,它的任务是要发现大量的地理空间信息中所隐含的知识或规则。空间数据挖掘可发现的知识类型主要有:⑴空间关联规则,即空间对象间相邻、相连、共生、包含等关联关系;⑵空间聚类规则,即特征相近的空间对象聚类的规则;⑶空间特征规律,即一类或几类空间对象的普遍特征;⑷空间区分规则指多类空间对象间的不同特征即可以用来区分对象[4]。本文基与钻孔数据提出了一种数据挖掘模型,
3 空间分析
空间分析是基于地理对象的位置形态特征的空间数据分析技术,其目的在于提取和传输空间信息。常用的空间分析方法有空间聚类、趋势面分析、网络分析、小波分析及空间自相关分析等等,本文从挖掘任务和挖掘方法的角度,着重介绍聚类分析和趋势面分析两种重要的分析方法。
3.1趋势面分析
空间趋势反映的是空间物体在空间区域上变化的主体特征,因此它忽略了局部的变异以揭示总体规律。描述空间趋势是相当困难的问题,从理论上讲,空间梯度均值可以作为描述空间趋势的一个参数,但因其不能从空间的角度反映趋势,因此在实际当中很少使用。趋势面是揭示面状区域上连续分布现象空间变化规律的理想工具,也是实际当中经常使用的描述空间趋势的主要方法。经过适当的预处理,非连续分布的现象在面状区域上的空间趋势亦可以用趋势面来描述。
趋势面分析适用于描述面状区域上连续分布现象的空间趋势,由于钻孔数据是分布在三维空间中,所以有必要将三维钻孔数据映射到一个平面上,本文将这个投影值称为矿化厚度,它的计算公式为:
c = ∑(l * k) * p (l-矿化段的长度,k-矿化段的矿化度,p-放大因子)。定义这个参数后,可以表示每口钻井含矿情况的量化值,用此参数进行趋势面分析,采用地图学中的等值线方法对分析结果进行可视化,可直观地表示出研究区域中的矿体分布趋势。
式中:C为拟合指数,Zj为第j点的观测值, 为第j点的趋势值, 为全部观测值的平均值。当C=100%时,表明趋势值在所有观测点上都与实际值吻合,但这种情况是很少的。当C=75%以上时,拟合误差均在10%以下,这时可以认为趋势面的拟合效果良好。
3.2聚类分析
空间聚类的目的是对空间物体的集群性进行分析,将其分为几个不同的子群(类)。子群的形成是地理系统运作的结果,根据此可以揭示某种地理机制。对于离散的点群Pi ( i=1,2,…,n ),我们可以得到一组描述点群位置的几何数据(xi,yi,zi),亦可以有一组统计变量的属性数据ci =(ci1,ci2,…cim),空间聚类是基于几何数据的聚类。同样基于ci,也可以进行聚类分析,尽管可以采用相同的算法,但基于ci的聚类应视为非空间分析[4]。
进行空间聚类分析有一个前提条件,就是点群具有一定的集中趋势。考虑到钻孔数据在xy平面上是均匀分布的,但在三维空间中,矿化段在z轴方向具有集中分布的趋势,实际聚类中应当充分考虑钻井平面分布的均匀性,同时为了克服对初始选值敏感性的缺点,文中对聚类算法进行一定的改进。在选择初始值时结合矿化量的趋势面分析结果,用趋势面分析得到的极值点来确定K-MEANS算法的初始聚类中心,这样不仅保持了K-均值算法快速收敛的特点,同时也使聚类的结果更符合实际的分布趋势。其算法步骤如下:
1) 根据矿化量统计分析结果,找出矿化量平面上的极值*Sj 。
2) 合并相近的极值点*Sj ,得到初始的聚类中心Sj 。
3) 获取聚类数目k ,置迭代误差阈值emin = 0.00001(可根据需要设置)。
4) 根据聚类数目k,初始化聚类中心:
式中:Nj 为第j个聚类域中包含的样本个数。
若|C j (t+1) - C j (t) |< emin , j = 1,2,…,k 则停止迭代,第t次迭代为聚类方案;否则 返回第四步。
通过该算法在对矿化段进行相关性分析时,可以参考趋势面分析的结果,改变聚类参数来获得与趋势面分析更吻合的聚类效果。在趋势面分析的基础上,通过空间聚类分析得到各个钻井之间的相关性,为进一步的研究矿体分布和三维矿体模拟提供了先验知识。
图3 聚类数目为4的矿化段相关性分布图
Fig3 Map for mineralized segment distribution with clustering of 4
4 结论
基于本文提出的数据挖掘模型,在Windows环境下,采用三十口钻井数据,利用VC++和OPENGL开发出了基于钻孔数据的三维空间数据挖掘系统。本系统对研究区域的矿体分布情况具有一定的自动推理能力,避免了不必要的人工干预 ,从而扩展了钻孔数据建模的适用范围和表现能力。但此方法仍然存在一些不足 ,如对地质构造扭曲变形严重 ,存在复杂褶
皱及多种构造混合时建模效果有待改进;建模过程中没有考虑必要的人机交互 ,各种地质资料、专家知识和工程经验不能及时融入到实际建模流程中等。由于地质现象的高度复杂性和不确定性 ,上述问题将随着研究和实际应用的深入而逐步得到解决。
参考文献
[1] 雍世和, 洪有密. 测井资料综合解释与数字处理[M ]. 北京: 石油工业出版社, 1982.
[2] 刘毅勇,何雄,李金山等.空间数据挖掘:变数据为知识.计算机世界报,2005.8.15.
[3] 王净. 空间数据挖掘和知识发现与地理可视化的集成.测绘通报,2005年第12期.
[4] 巨珺, 张虹. 空间数据挖掘方法分析. 福建电脑,2007年第3期.
[5] 郭仁忠.空间分析.高等教育出版社,北京,2001.10.
作者简介
陈 昊(1985-),男,中国矿业大学资源与地球科学学院,硕士研究生。
关键词:钻孔数据;空间数据挖掘;趋势面分析; 聚类分析
1 引言
钻井领域数据复杂, 既有定量测量的数据, 又有定性的文字描述, 它们量纲不一、形式多样。如何把这些反映不同特性的数据结合起来, 无冗余, 而又不漏失地反映井、矿的特性, 一直是钻井领域资料解释的重点[1]。如何从庞大的数据库中挖掘出需要的信息,并将这些信息通过空间分析转化为直观的知识呈现给用户,将是本文探讨的重点内容。
2 空间数据挖掘模型
空间数据挖掘(Spatial Data Mining,SDM),也称基于空间数据库的数据挖掘和知识发现(Spatial Data Mining and Knowledge Discovery),是指从空间数据库中提取隐含的、用户感兴趣的知识、空间或其他有意义的模式[2] 。空间数据挖掘和知识发现的过程通常包括反复的试验、决策设计和用户定制,是多个步骤相互连接、反复进行人机交互的过程。Fayyad将知识发现的过程划分为九个阶段,如图1所示。
图1 空间数据挖掘(SDMKD)的主要阶段[3]
Fig1 main phases of SDMKD
空间数据挖掘主要研究空间数据的概率分布模式、聚类和分类特征,属性间的依赖关系特征等,它的任务是要发现大量的地理空间信息中所隐含的知识或规则。空间数据挖掘可发现的知识类型主要有:⑴空间关联规则,即空间对象间相邻、相连、共生、包含等关联关系;⑵空间聚类规则,即特征相近的空间对象聚类的规则;⑶空间特征规律,即一类或几类空间对象的普遍特征;⑷空间区分规则指多类空间对象间的不同特征即可以用来区分对象[4]。本文基与钻孔数据提出了一种数据挖掘模型,
3 空间分析
空间分析是基于地理对象的位置形态特征的空间数据分析技术,其目的在于提取和传输空间信息。常用的空间分析方法有空间聚类、趋势面分析、网络分析、小波分析及空间自相关分析等等,本文从挖掘任务和挖掘方法的角度,着重介绍聚类分析和趋势面分析两种重要的分析方法。
3.1趋势面分析
空间趋势反映的是空间物体在空间区域上变化的主体特征,因此它忽略了局部的变异以揭示总体规律。描述空间趋势是相当困难的问题,从理论上讲,空间梯度均值可以作为描述空间趋势的一个参数,但因其不能从空间的角度反映趋势,因此在实际当中很少使用。趋势面是揭示面状区域上连续分布现象空间变化规律的理想工具,也是实际当中经常使用的描述空间趋势的主要方法。经过适当的预处理,非连续分布的现象在面状区域上的空间趋势亦可以用趋势面来描述。
趋势面分析适用于描述面状区域上连续分布现象的空间趋势,由于钻孔数据是分布在三维空间中,所以有必要将三维钻孔数据映射到一个平面上,本文将这个投影值称为矿化厚度,它的计算公式为:
c = ∑(l * k) * p (l-矿化段的长度,k-矿化段的矿化度,p-放大因子)。定义这个参数后,可以表示每口钻井含矿情况的量化值,用此参数进行趋势面分析,采用地图学中的等值线方法对分析结果进行可视化,可直观地表示出研究区域中的矿体分布趋势。
式中:C为拟合指数,Zj为第j点的观测值, 为第j点的趋势值, 为全部观测值的平均值。当C=100%时,表明趋势值在所有观测点上都与实际值吻合,但这种情况是很少的。当C=75%以上时,拟合误差均在10%以下,这时可以认为趋势面的拟合效果良好。
3.2聚类分析
空间聚类的目的是对空间物体的集群性进行分析,将其分为几个不同的子群(类)。子群的形成是地理系统运作的结果,根据此可以揭示某种地理机制。对于离散的点群Pi ( i=1,2,…,n ),我们可以得到一组描述点群位置的几何数据(xi,yi,zi),亦可以有一组统计变量的属性数据ci =(ci1,ci2,…cim),空间聚类是基于几何数据的聚类。同样基于ci,也可以进行聚类分析,尽管可以采用相同的算法,但基于ci的聚类应视为非空间分析[4]。
进行空间聚类分析有一个前提条件,就是点群具有一定的集中趋势。考虑到钻孔数据在xy平面上是均匀分布的,但在三维空间中,矿化段在z轴方向具有集中分布的趋势,实际聚类中应当充分考虑钻井平面分布的均匀性,同时为了克服对初始选值敏感性的缺点,文中对聚类算法进行一定的改进。在选择初始值时结合矿化量的趋势面分析结果,用趋势面分析得到的极值点来确定K-MEANS算法的初始聚类中心,这样不仅保持了K-均值算法快速收敛的特点,同时也使聚类的结果更符合实际的分布趋势。其算法步骤如下:
1) 根据矿化量统计分析结果,找出矿化量平面上的极值*Sj 。
2) 合并相近的极值点*Sj ,得到初始的聚类中心Sj 。
3) 获取聚类数目k ,置迭代误差阈值emin = 0.00001(可根据需要设置)。
4) 根据聚类数目k,初始化聚类中心:
式中:Nj 为第j个聚类域中包含的样本个数。
若|C j (t+1) - C j (t) |< emin , j = 1,2,…,k 则停止迭代,第t次迭代为聚类方案;否则 返回第四步。
通过该算法在对矿化段进行相关性分析时,可以参考趋势面分析的结果,改变聚类参数来获得与趋势面分析更吻合的聚类效果。在趋势面分析的基础上,通过空间聚类分析得到各个钻井之间的相关性,为进一步的研究矿体分布和三维矿体模拟提供了先验知识。
图3 聚类数目为4的矿化段相关性分布图
Fig3 Map for mineralized segment distribution with clustering of 4
4 结论
基于本文提出的数据挖掘模型,在Windows环境下,采用三十口钻井数据,利用VC++和OPENGL开发出了基于钻孔数据的三维空间数据挖掘系统。本系统对研究区域的矿体分布情况具有一定的自动推理能力,避免了不必要的人工干预 ,从而扩展了钻孔数据建模的适用范围和表现能力。但此方法仍然存在一些不足 ,如对地质构造扭曲变形严重 ,存在复杂褶
皱及多种构造混合时建模效果有待改进;建模过程中没有考虑必要的人机交互 ,各种地质资料、专家知识和工程经验不能及时融入到实际建模流程中等。由于地质现象的高度复杂性和不确定性 ,上述问题将随着研究和实际应用的深入而逐步得到解决。
参考文献
[1] 雍世和, 洪有密. 测井资料综合解释与数字处理[M ]. 北京: 石油工业出版社, 1982.
[2] 刘毅勇,何雄,李金山等.空间数据挖掘:变数据为知识.计算机世界报,2005.8.15.
[3] 王净. 空间数据挖掘和知识发现与地理可视化的集成.测绘通报,2005年第12期.
[4] 巨珺, 张虹. 空间数据挖掘方法分析. 福建电脑,2007年第3期.
[5] 郭仁忠.空间分析.高等教育出版社,北京,2001.10.
作者简介
陈 昊(1985-),男,中国矿业大学资源与地球科学学院,硕士研究生。