论文部分内容阅读
[摘要]结合地震数据分析软件MSDP与全球地震发生地的地震三要素,运用多元线性回归分析方法,将格尔木地震台在2003年至2013年这11年间采集的地震,震级在M≧5.0区域的大地震的相对时差进行分析建模,为建立相对时差与地震发生地的深度、震中距、方位角这三个变量之间的函数关系提供了一种简单的方法,并且求出相应的多元线性回归方程。
[关键词]地震 时差 相关系数分析
[中图分类号] P4 [文献码] B [文章编号] 1000-405X(2015)-8-384-2
0前言
格尔木地震台属于国家基准台站之一,多年在年终材料评比中获得优秀名次,地震台采集的地震数,以及地震波形分析科学性,准确性,都得到全国各基准台站的好评,数据来源可靠。朱德斌等(2008)做出了浅层地震勘探数据拟同步采集时差分析[1],该文对格尔木地震台采集的地震震级在M≧5.0区域的地震走时进行细心观察与分析下,利用SPSS统计软件方便快捷地得出该地震台采集的地震波理论走时与实际走时的时差与震中距、方位角的回归模型,以及相关系数分析。
1数据来源与定性变量的量化分析
本文数据来源于格尔木地震台从2003年至2013年11年间的大地震的地震波形分析走时,利用地震分析数据软件MSDP与全球地震发生地的地震三要素的实际波形走时资料。进行多元回归分析,研究该地震台采集的地震波理论走时与实际走时的时差与震中距、方位角的变量之间的数学回归模型。诸影响因素中,时差△(y)、震源深度H(x1)、震中距d(x2)、方位角 (x3),时差的产生在地震数据分析中是随着地质结构而产生的,朱德兵,平立姣等浅层地震勘探数据拟同步采集时差分析与实践中对时差的界定很清楚(2008)理想的地震勘探数据采集与实际采集到的时刻的差值,就形成了时差,造成时差产生的因素很多,本文以比较显著地地震信息数据予以探究,本文理论计算的走时表是J—B走时表。J—B走时表是全球范围内的平均走时表,台站所在地区地壳和上地幔结构同J—B模型的差异,必然要反应到台站观测到的真实走时与J—B走时之间的差异上来。数据源信息统计(见表1)。
表1中反映数据集中地样本总量为1608个,时差△的平均值为2.311s;深度h的平均值为52.682Km; 震中距d的平均值为50.861 Km; 方位角θ的平均值为8601.02(方位角转化为弧度制)。
2正态性检验及异常值判断
2.1异常值诊断
采用SPSS软件中地数据里的标识异常个案统计得出:变量中方位角有四组异常值,有效值的采用率达到99.8%;震中距有26组异常值,有效值得采用率达到98.4%;震源深度有50组异常值,有效值采用率达到97.9%。整体来说数据采用价值很高。
2.2相关性分析
回归统计表(见表2)中显示的是回归模型统计量:R是相关系数;R Square是相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);djusted R Square调整后的判定系数;结合SPSS软件处理数据分析结果显示(见表3):sig(单侧)表示显著性水平,在0.005水平下,显著相关,(因为0.000<0.05)并且呈现出明显的“正相关关系”;深度h显著水平值为0.348〉0.05,显著水平为不明显。 pearson相关系数采用的是“参数统计方法”。
结果分析:(1)从相关性的表格中可以看出:在0.05水平下,显著相关,(因为0.000<0.05)并且呈现出明显的“正相关关系”;(2)从相关系数表中可以得出:震中距d,方位角 两种方式都呈现出相关性,综合以上两种不同方法的分析的得到,①不同的方法得出的相关系数值也不同,深度h分别为:0.010、1.000;震中距d分别为:-0.117、0.121;方位角 分别为0.158、0.095.这些都对应分别代表了相关强弱。②不同的方法都能检测出显著水平比较明显的是震中距d,方位角 。
通过上述分析该文研究实例符合线性回归的条件,考虑到所选取的自变量之间的多重共线性,以下分别采用不同的方法对比选取自变量进行线性回归分析,并确定回归数学模型。
3回归分析的三種方法的对比的实例分析应用
3.1分析回归分析的条件
3.1.1拟合程度的测定
与一元线性回归中可决系数r2相对应,多元线性回归中也有多重可决系数R2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,R2越大,回归方程对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。
3.1.2估计标准误差
3.1.3回归方程的显著性检验
回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。
3.2逐步回归分析法的研究应用
采用逐步回归分析法,将变量一个一个的输入,每输入一个自变量,会对已输入的变量进行逐个检验,当原输入的变量由于后面变量引入而改变得不再显著时,则将其删除。输入(已删除)变量应按照偏F检验值得最大(或最小)优先被输入的原则,知道既无显著变量被输入,又无不显著地变量被删除为止。在逐步回归的过程中,发现有强影响点,SPSS软件自动将原数据表中的不显著的影响因素(震源深度h自变量),逐条删除后,继续用逐步法做回归分析,得到修正后的回归模型。
在此以逐步回归分析法为例来通过图型分析正态性检验:P-P概率图,根据时差的累计概率对应于正态分布累计概率绘制的散点图,从图形上看,代表样本数据的点成对角线分布(见图1),另外仔细观察趋势频率直方图(见图2),即按正态分布计算的理论值和实际值之差的分布情况的分布残差图,数据点除几个异常值外,故时差服从正态分布。
时差数据分布的回归标准化预计值与指定正态分布的实际数据之间的散点图(见图3),同样可以直观的看出时差服从正态分布。
3.3前进法回归分析的应用
利用前进法,按照F检验值最大优先进入的原则,让自变量逐个进入回归模型,并接受检验。考虑到强影响点,为此下面在删除部分强影响点后继续用前进法进行回归分析,逐步删除强影响点后,得到修正的回归模型。
4比较研究结果
对比上述3 种回归法研究结果,前进法、后退法、逐步回归法确定的模型调整相关系数分别为R2adj=0.071,0.071,0.071,在用样本量和模型中自变量的个数进行调整后,在RI 用量的变差中,可由模型中自变量解释的比例依次增加;从三种方法的模型2中地结果都一致,但回归系数不同,相关系数较低;根据AIC 准则选择变量结果与3.2节模型保持一致. 因此逐步回归法综合了前进法和后退法的特点,更好地突出了对因变量时差△的重要影响因素.
参考文献
[1]朱德兵,平立姣,朱自强.浅层地震勘探数据拟同步采集时差分析与实践[J].地球物理学进展,2008,23(6)1958-1962
[2]薛峰,赵永,等. 1998.中国地震速报台网走时残差分析与走时修改[J].地震地磁观测与研究,19(4):48-54.
[3]贾素娟. 1983.用P波走时残差研究深部结构[J].山西地震,1:17-22.
[4]张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004,91-116,213-289.
[5]梅长林,范金城.数据分析方法 [M].北京:高等教育出版社,2008,38-113.
[关键词]地震 时差 相关系数分析
[中图分类号] P4 [文献码] B [文章编号] 1000-405X(2015)-8-384-2
0前言
格尔木地震台属于国家基准台站之一,多年在年终材料评比中获得优秀名次,地震台采集的地震数,以及地震波形分析科学性,准确性,都得到全国各基准台站的好评,数据来源可靠。朱德斌等(2008)做出了浅层地震勘探数据拟同步采集时差分析[1],该文对格尔木地震台采集的地震震级在M≧5.0区域的地震走时进行细心观察与分析下,利用SPSS统计软件方便快捷地得出该地震台采集的地震波理论走时与实际走时的时差与震中距、方位角的回归模型,以及相关系数分析。
1数据来源与定性变量的量化分析
本文数据来源于格尔木地震台从2003年至2013年11年间的大地震的地震波形分析走时,利用地震分析数据软件MSDP与全球地震发生地的地震三要素的实际波形走时资料。进行多元回归分析,研究该地震台采集的地震波理论走时与实际走时的时差与震中距、方位角的变量之间的数学回归模型。诸影响因素中,时差△(y)、震源深度H(x1)、震中距d(x2)、方位角 (x3),时差的产生在地震数据分析中是随着地质结构而产生的,朱德兵,平立姣等浅层地震勘探数据拟同步采集时差分析与实践中对时差的界定很清楚(2008)理想的地震勘探数据采集与实际采集到的时刻的差值,就形成了时差,造成时差产生的因素很多,本文以比较显著地地震信息数据予以探究,本文理论计算的走时表是J—B走时表。J—B走时表是全球范围内的平均走时表,台站所在地区地壳和上地幔结构同J—B模型的差异,必然要反应到台站观测到的真实走时与J—B走时之间的差异上来。数据源信息统计(见表1)。
表1中反映数据集中地样本总量为1608个,时差△的平均值为2.311s;深度h的平均值为52.682Km; 震中距d的平均值为50.861 Km; 方位角θ的平均值为8601.02(方位角转化为弧度制)。
2正态性检验及异常值判断
2.1异常值诊断
采用SPSS软件中地数据里的标识异常个案统计得出:变量中方位角有四组异常值,有效值的采用率达到99.8%;震中距有26组异常值,有效值得采用率达到98.4%;震源深度有50组异常值,有效值采用率达到97.9%。整体来说数据采用价值很高。
2.2相关性分析
回归统计表(见表2)中显示的是回归模型统计量:R是相关系数;R Square是相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);djusted R Square调整后的判定系数;结合SPSS软件处理数据分析结果显示(见表3):sig(单侧)表示显著性水平,在0.005水平下,显著相关,(因为0.000<0.05)并且呈现出明显的“正相关关系”;深度h显著水平值为0.348〉0.05,显著水平为不明显。 pearson相关系数采用的是“参数统计方法”。
结果分析:(1)从相关性的表格中可以看出:在0.05水平下,显著相关,(因为0.000<0.05)并且呈现出明显的“正相关关系”;(2)从相关系数表中可以得出:震中距d,方位角 两种方式都呈现出相关性,综合以上两种不同方法的分析的得到,①不同的方法得出的相关系数值也不同,深度h分别为:0.010、1.000;震中距d分别为:-0.117、0.121;方位角 分别为0.158、0.095.这些都对应分别代表了相关强弱。②不同的方法都能检测出显著水平比较明显的是震中距d,方位角 。
通过上述分析该文研究实例符合线性回归的条件,考虑到所选取的自变量之间的多重共线性,以下分别采用不同的方法对比选取自变量进行线性回归分析,并确定回归数学模型。
3回归分析的三種方法的对比的实例分析应用
3.1分析回归分析的条件
3.1.1拟合程度的测定
与一元线性回归中可决系数r2相对应,多元线性回归中也有多重可决系数R2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,R2越大,回归方程对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。
3.1.2估计标准误差
3.1.3回归方程的显著性检验
回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。
3.2逐步回归分析法的研究应用
采用逐步回归分析法,将变量一个一个的输入,每输入一个自变量,会对已输入的变量进行逐个检验,当原输入的变量由于后面变量引入而改变得不再显著时,则将其删除。输入(已删除)变量应按照偏F检验值得最大(或最小)优先被输入的原则,知道既无显著变量被输入,又无不显著地变量被删除为止。在逐步回归的过程中,发现有强影响点,SPSS软件自动将原数据表中的不显著的影响因素(震源深度h自变量),逐条删除后,继续用逐步法做回归分析,得到修正后的回归模型。
在此以逐步回归分析法为例来通过图型分析正态性检验:P-P概率图,根据时差的累计概率对应于正态分布累计概率绘制的散点图,从图形上看,代表样本数据的点成对角线分布(见图1),另外仔细观察趋势频率直方图(见图2),即按正态分布计算的理论值和实际值之差的分布情况的分布残差图,数据点除几个异常值外,故时差服从正态分布。
时差数据分布的回归标准化预计值与指定正态分布的实际数据之间的散点图(见图3),同样可以直观的看出时差服从正态分布。
3.3前进法回归分析的应用
利用前进法,按照F检验值最大优先进入的原则,让自变量逐个进入回归模型,并接受检验。考虑到强影响点,为此下面在删除部分强影响点后继续用前进法进行回归分析,逐步删除强影响点后,得到修正的回归模型。
4比较研究结果
对比上述3 种回归法研究结果,前进法、后退法、逐步回归法确定的模型调整相关系数分别为R2adj=0.071,0.071,0.071,在用样本量和模型中自变量的个数进行调整后,在RI 用量的变差中,可由模型中自变量解释的比例依次增加;从三种方法的模型2中地结果都一致,但回归系数不同,相关系数较低;根据AIC 准则选择变量结果与3.2节模型保持一致. 因此逐步回归法综合了前进法和后退法的特点,更好地突出了对因变量时差△的重要影响因素.
参考文献
[1]朱德兵,平立姣,朱自强.浅层地震勘探数据拟同步采集时差分析与实践[J].地球物理学进展,2008,23(6)1958-1962
[2]薛峰,赵永,等. 1998.中国地震速报台网走时残差分析与走时修改[J].地震地磁观测与研究,19(4):48-54.
[3]贾素娟. 1983.用P波走时残差研究深部结构[J].山西地震,1:17-22.
[4]张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004,91-116,213-289.
[5]梅长林,范金城.数据分析方法 [M].北京:高等教育出版社,2008,38-113.