论文部分内容阅读
【摘要】本文提出主成分分析(PCA)和支持向量机(SVM)耦合来建立储层参数预测模型。该方法利用PCA对影响储层参数诸因数进行知识约简,降低了支持向量机的输入维数,同时也克服诸因数的多重相关性问题。利用SVM建模可以较好地解决非线性的储层参数预测问题。实例证明该方法在复杂地层带储层参数预测中具有较好的效果。
【关键词】主成分分析支持向量机储层参数预测
【中图分类号】O29【文献标识码】A【文章编号】1006-9682(2010)3-0038-02
【Abstract】In this paper, principal component analysis(PCA)and Support Vector Machine(SVM)coupling to build predictive models of reservoir parameters. This method makes use of various reservoir parameters affecting the PCA factor of knowledge reduction, reduced support vector machine input dimension, but also to overcome the multiplicity of factors related to various issues. The use of support vector machine modeling can be solved non-linear prediction of reservoir parameters. Examples prove that the method in complex formation with a prediction of reservoir parameters with good results.
【Key words】Principal components analysisSupport vector machineReservoir parameter prediction
一、引 言
利用地震属性来进行储层参数预测一直以来都是油气勘探的一个重要依据,如何采用地震属性来提高储层参数的预测精度和可靠性一直是地质专家关心的焦点,因此如何最大限度地挖掘和利用已有的地震与测井信息,而地震属性有几十甚至上千个,如何从这些属性中选取较优的属性对储层参数预测是一个重要课题。基于此本文中笔者尝试利用PCA对地震属性参数进行优化提取,不但达到特征约减和信息综合的目的,而且也剔除了由于地震属性彼此之间相关性而造成信息冗余,并就优化提取的结果用于储层参数预测。目前应用于储层参数的预测较为广泛的主要有多元回归和神经网络的数学方法,并且在一定的范围内取得较好的效果,但是在复杂地层带尤其十分有限样本数据条件下其预测精度和可靠性还是值得商榷,因而其推广受到了一定的限制。近年来,随着人们对数据的机器学习研究深入,基于统计学习理论和优秀的机器学习以及推广性能的支持向量机。已经成为了国际上机器学习领域新的研究热点,并且在许多尖端领域取得了成功的应用,也为研究基于测井信息的储层参数预测这一复杂课题提供了一个崭新的方向。为此笔者在本文中建立了一个以PCA与SVR耦合的储层参数预测模型,并以川东南嘉陵江组储集层实例应用来验证其可行性。
二、主成分分析
主成分分析理论(principal component analysis,简称PCA)由英国数学家Pearson于1901年提出,经过100多年的发展逐步完善起来。PCA是考察多个变量间相关性的一种多元统计分析方法,它是研究如何通过少数几个主成分(即原始数据的线性组合)来解释多个变量。具体说是求出几个主成分,使其尽量多的保留了原始变量的信息,且彼此线性无关,这使得它在特征选取、数据压缩等方面都有极为重要的应用。PCA算法具体步骤如下:
1.对原始数据进行标准化处理。为消除变量之间在数量级或量纲上的不同,需要把原始数据标准化处理。设xij表示第i(i=1,2,…,n)个样本j(j=1,2,…,m)变量的对应的值,则xij的标准化值为:
,
其中 , 。X是经
过标准化变换后得到的数据矩阵为:X*=(x*ij)n×m。
2.求标准化数据的相关矩阵:
R=(rij)m×m,
3.计算相关矩阵R=(rij)m×m的特征λ1≥λ2≥…≥λm
≥0(满足 )和其对应的特征向量(u1,u2,…,um)。
4.确定主成分个数。找出前p个主成分,使 满足在
百分之九十左右即可。
5.前p个主成分对应的特征值组成的矩阵为Um×p,则缩减后p个综合指标为Yn×p=X*n×mUm×p。
三、支持向量机
支持向量机(Support Vector Machine,SVM)是Bell实验室的Vapnik等人基于统计学习理论中的VC维和结构风险最小化原则提出的一种新通用机器学习技术。首先它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷以期获得最好的推广能力;其次SVM求解是一个凸二次优化问题,得到的解将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题;再之SVM是将输入向量映射到一个高维的特征空间,并在该特征空间中构造最优分类面,它能够避免在多层前向网络中无法克服的一些缺点。对于训练集为非线性情况可以通过某一非线性函数φ(x)将训练集数据x映射到一个高维线性特征空间,在这个维数可能为无穷大的线性空间中构造回归估计函数,其估计函数f(x)为如下形式:
f(x)=w•φ(x)+b
其中w的维数为特征空间维数(可能为无穷维),最优化问题为:
s.t. yi-wφ(xi)-b≤ε+ξi
w•φ(xi)+b-yi≤ε+ξ*i
ξi≥0
ξ*i≥0,i=1,2,…,l
其中ξi,ξ*i是松弛变量,ε为不敏感损失函数,C(C>0)为惩罚系数,C越大表示对超出ε管道数据点的惩罚越大。采用拉格朗日乘子法求解这个具有非线性不等式约束的二次规划问题,得到对偶最优化问题:
s.t.
0≤ai≤C
0≤a*i≤C
其中ai,a*i,βi,β*i≥0,i=1,2,…,l为拉格朗日乘子,K(xi,xj)=φ(xi)φ(xj)称为核函数,回归估计函数为f(x)=
,其中b按如下计算:
其中NSV(Normal Support Vector)是满足0 四、实例应用
本次研究我们嘉陵江组地层提取了包括波阻抗数据均方根振幅(RMS)在内的21种地震属性数据和相应孔隙度数据,我们选取其中的65组样本作为训练集和10组样本作为测试集,采用PCA与SVM耦合方法对空隙度预测的步骤如下:
Step1:将原始数据进行标准化处理;利用PCA方法对处理后的数据进行约减,经过PCA方法约减后地震属性由原先的21种约减到6种。
Step2:建立学习样本集{(xi,yi),i=1,2,…,l},其中xi∈RN,yi∈R。在这里xi表示特征提取出来特征参数,yi表示孔隙度。
Step3:选择合适的核函数及有关参数,在这里选择高斯径向基函数:K(xi,x)=exp(-||x-xi||2/2σ2),并利用网格化搜索核函数K(xi,x),采用参数设置如下:C=100,ε=0.001,σ=65。
Step4:根据已有的算法学习样本,建立回归估计函数。
Step5:输入测试样本对孔隙度进行预测,结果见表1。
由表1可见,基于PCA-SVM耦合方法的孔隙度实测值与孔隙度实测值比较接近,绝对误差也较小,实验结果证明了该方法在复杂地层带储层参数预测中具有较好的效果。为了更好说明该方法的可行性,我们将该方法与传统储层参数预测的多元线形回归和BP神经网络方法进行比较和分析,这里我们取平均相对误差MAPE作为各种方法预测效果判断的根据:
式中A(i)和F(i)——孔隙度实测值和预测值,A(i)-F(i)表示绝对误差。利用上式我们对不同预测方法结果显示见表2。
由表2可看出支持向量机预测的平均相对误差最小,多元线性回归值的计算误差较大的主要原因是孔隙度与特征参数实质是一个非线性复杂的关系式,而多元线性回归是用线性逼近误差较大。用BP神经网络来描述孔隙度与特征参数的复杂关系,精度也比较精确,但神经网络受网络结构和样本复杂性的影响较大,有时会出现学习低泛化能力。因此,尝试PCA-SVM耦合方法为储层参数预测提供了一种可行、有效的新途径。
参考文献
1 陈遵德.储层地震属性优化方法[M].北京:石油工业出版社,1998
2 赵加凡、陈小宏.基于主成分分析与K-L变换的双重属性优化方法[J].物探与化探,2005.29(3):253~255
3 童其慧.主成分分析方法在指标综合评价中的应用[J].北京理工大学学报:(社会科学版),2002.4(1):59~61
4 Vapnik V N.Statistical learning theory[M].New York,1998
5 张学工.关于统计学习理论与支持向量机.自动化学报,2000.26(1):32~42
6 杜树新、吴铁军.用于回归估计的支持向量机方法[J].系统仿真学报,2003.15(11):1580~1585
【关键词】主成分分析支持向量机储层参数预测
【中图分类号】O29【文献标识码】A【文章编号】1006-9682(2010)3-0038-02
【Abstract】In this paper, principal component analysis(PCA)and Support Vector Machine(SVM)coupling to build predictive models of reservoir parameters. This method makes use of various reservoir parameters affecting the PCA factor of knowledge reduction, reduced support vector machine input dimension, but also to overcome the multiplicity of factors related to various issues. The use of support vector machine modeling can be solved non-linear prediction of reservoir parameters. Examples prove that the method in complex formation with a prediction of reservoir parameters with good results.
【Key words】Principal components analysisSupport vector machineReservoir parameter prediction
一、引 言
利用地震属性来进行储层参数预测一直以来都是油气勘探的一个重要依据,如何采用地震属性来提高储层参数的预测精度和可靠性一直是地质专家关心的焦点,因此如何最大限度地挖掘和利用已有的地震与测井信息,而地震属性有几十甚至上千个,如何从这些属性中选取较优的属性对储层参数预测是一个重要课题。基于此本文中笔者尝试利用PCA对地震属性参数进行优化提取,不但达到特征约减和信息综合的目的,而且也剔除了由于地震属性彼此之间相关性而造成信息冗余,并就优化提取的结果用于储层参数预测。目前应用于储层参数的预测较为广泛的主要有多元回归和神经网络的数学方法,并且在一定的范围内取得较好的效果,但是在复杂地层带尤其十分有限样本数据条件下其预测精度和可靠性还是值得商榷,因而其推广受到了一定的限制。近年来,随着人们对数据的机器学习研究深入,基于统计学习理论和优秀的机器学习以及推广性能的支持向量机。已经成为了国际上机器学习领域新的研究热点,并且在许多尖端领域取得了成功的应用,也为研究基于测井信息的储层参数预测这一复杂课题提供了一个崭新的方向。为此笔者在本文中建立了一个以PCA与SVR耦合的储层参数预测模型,并以川东南嘉陵江组储集层实例应用来验证其可行性。
二、主成分分析
主成分分析理论(principal component analysis,简称PCA)由英国数学家Pearson于1901年提出,经过100多年的发展逐步完善起来。PCA是考察多个变量间相关性的一种多元统计分析方法,它是研究如何通过少数几个主成分(即原始数据的线性组合)来解释多个变量。具体说是求出几个主成分,使其尽量多的保留了原始变量的信息,且彼此线性无关,这使得它在特征选取、数据压缩等方面都有极为重要的应用。PCA算法具体步骤如下:
1.对原始数据进行标准化处理。为消除变量之间在数量级或量纲上的不同,需要把原始数据标准化处理。设xij表示第i(i=1,2,…,n)个样本j(j=1,2,…,m)变量的对应的值,则xij的标准化值为:
,
其中 , 。X是经
过标准化变换后得到的数据矩阵为:X*=(x*ij)n×m。
2.求标准化数据的相关矩阵:
R=(rij)m×m,
3.计算相关矩阵R=(rij)m×m的特征λ1≥λ2≥…≥λm
≥0(满足 )和其对应的特征向量(u1,u2,…,um)。
4.确定主成分个数。找出前p个主成分,使 满足在
百分之九十左右即可。
5.前p个主成分对应的特征值组成的矩阵为Um×p,则缩减后p个综合指标为Yn×p=X*n×mUm×p。
三、支持向量机
支持向量机(Support Vector Machine,SVM)是Bell实验室的Vapnik等人基于统计学习理论中的VC维和结构风险最小化原则提出的一种新通用机器学习技术。首先它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷以期获得最好的推广能力;其次SVM求解是一个凸二次优化问题,得到的解将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题;再之SVM是将输入向量映射到一个高维的特征空间,并在该特征空间中构造最优分类面,它能够避免在多层前向网络中无法克服的一些缺点。对于训练集为非线性情况可以通过某一非线性函数φ(x)将训练集数据x映射到一个高维线性特征空间,在这个维数可能为无穷大的线性空间中构造回归估计函数,其估计函数f(x)为如下形式:
f(x)=w•φ(x)+b
其中w的维数为特征空间维数(可能为无穷维),最优化问题为:
s.t. yi-wφ(xi)-b≤ε+ξi
w•φ(xi)+b-yi≤ε+ξ*i
ξi≥0
ξ*i≥0,i=1,2,…,l
其中ξi,ξ*i是松弛变量,ε为不敏感损失函数,C(C>0)为惩罚系数,C越大表示对超出ε管道数据点的惩罚越大。采用拉格朗日乘子法求解这个具有非线性不等式约束的二次规划问题,得到对偶最优化问题:
s.t.
0≤ai≤C
0≤a*i≤C
其中ai,a*i,βi,β*i≥0,i=1,2,…,l为拉格朗日乘子,K(xi,xj)=φ(xi)φ(xj)称为核函数,回归估计函数为f(x)=
,其中b按如下计算:
其中NSV(Normal Support Vector)是满足0
本次研究我们嘉陵江组地层提取了包括波阻抗数据均方根振幅(RMS)在内的21种地震属性数据和相应孔隙度数据,我们选取其中的65组样本作为训练集和10组样本作为测试集,采用PCA与SVM耦合方法对空隙度预测的步骤如下:
Step1:将原始数据进行标准化处理;利用PCA方法对处理后的数据进行约减,经过PCA方法约减后地震属性由原先的21种约减到6种。
Step2:建立学习样本集{(xi,yi),i=1,2,…,l},其中xi∈RN,yi∈R。在这里xi表示特征提取出来特征参数,yi表示孔隙度。
Step3:选择合适的核函数及有关参数,在这里选择高斯径向基函数:K(xi,x)=exp(-||x-xi||2/2σ2),并利用网格化搜索核函数K(xi,x),采用参数设置如下:C=100,ε=0.001,σ=65。
Step4:根据已有的算法学习样本,建立回归估计函数。
Step5:输入测试样本对孔隙度进行预测,结果见表1。
由表1可见,基于PCA-SVM耦合方法的孔隙度实测值与孔隙度实测值比较接近,绝对误差也较小,实验结果证明了该方法在复杂地层带储层参数预测中具有较好的效果。为了更好说明该方法的可行性,我们将该方法与传统储层参数预测的多元线形回归和BP神经网络方法进行比较和分析,这里我们取平均相对误差MAPE作为各种方法预测效果判断的根据:
式中A(i)和F(i)——孔隙度实测值和预测值,A(i)-F(i)表示绝对误差。利用上式我们对不同预测方法结果显示见表2。
由表2可看出支持向量机预测的平均相对误差最小,多元线性回归值的计算误差较大的主要原因是孔隙度与特征参数实质是一个非线性复杂的关系式,而多元线性回归是用线性逼近误差较大。用BP神经网络来描述孔隙度与特征参数的复杂关系,精度也比较精确,但神经网络受网络结构和样本复杂性的影响较大,有时会出现学习低泛化能力。因此,尝试PCA-SVM耦合方法为储层参数预测提供了一种可行、有效的新途径。
参考文献
1 陈遵德.储层地震属性优化方法[M].北京:石油工业出版社,1998
2 赵加凡、陈小宏.基于主成分分析与K-L变换的双重属性优化方法[J].物探与化探,2005.29(3):253~255
3 童其慧.主成分分析方法在指标综合评价中的应用[J].北京理工大学学报:(社会科学版),2002.4(1):59~61
4 Vapnik V N.Statistical learning theory[M].New York,1998
5 张学工.关于统计学习理论与支持向量机.自动化学报,2000.26(1):32~42
6 杜树新、吴铁军.用于回归估计的支持向量机方法[J].系统仿真学报,2003.15(11):1580~1585