论文部分内容阅读
[摘要]在实际工作中,常常会遇到一组平行测定中有个别数据的精密度不甚高的情况,该数据与平均值之差是否属于偶然误差是可疑的。实验结果对可疑数据的取合很重要。而且对可检验疑数据取合过程中方法的选择也很重要。
[关键词]可疑数据、取合、方法选择
中图分类号:U415.1 文献标识码:A 文章编号:1009-914X(2013)05-0310-01
前言:在定量分析工作中,通常要对同一试样做几份平行测定,然后求出平均值。如果数据中出现显著性差异,即有的数据特大或特小(称为可疑值或离群值),是否都能参加平均值的计算呢?这就需要用统计学方法进行检验,不得随意弃去或保留可疑值。
实验结果可疑数据的取合方法很多:包括Q值检验法、格鲁布斯检验法、t值检验法、F检验法等等,下面借一组数据只对Q检验法、格鲁布斯检验法进行对比。看哪种方法更适合实验室应用。
1.数据整理
首先要把实验数据加以整理,剔除由于明显的原因而与其它测定结果相差甚远的那些数据,对于一些精密度似乎不甚高的可疑数据,则要通过一定的方法决定取合,然后计算数据的平均值、各数据对平均值的偏差、平均偏差与标准偏差,最后按照要求的置信度求出平均值的置信区间。
2.置信度与平均值的置信区间
有了平均值和平均值的标准偏差,就能以±s(表示平均值s表示平均值的标准偏差)的形式表示分析结果,从而推算出所要测定的真值所处的范围,这个范围就称为平均值的置信区间,真值落在这个范围内的几率称为置信度。通常化学分析中要求置信度95%。测定次数越多,置信区间的范围越窄,即测定平均值与总体平均值(真值)越接近,但是测定结果超过20次以上置信度的几率系数变化不大,再增加测定次数对提高测定结果的准确度已经没有什么意义了,所以只有在一定的测试次数范围内,分析数据的可靠性才随平行测定次数的增加而增加。
3.实验结果可疑数据的取舍方法对比
可疑数据的取合是对过失误差的判断,常用方法有Q检验法、格鲁布斯检验法主要用于确定检测结果的真实性。而针对分析方法准确性即系统误差的判断通常采用t值检验法和F值检验法,通常用于标准物质的数据整理。下面借一组数据对Q险验法、格鲁布斯检验法这两种方法进行对比。
例对某铅锌矿的含锌量进行七次测定,结果为:1.80,2.11,2.13,2.14,2.16,2.18,2.32试以Q检验法决定极端值的取合(置信度95%)。
3.1Q检验法基本要求
Q检验法是一种简便易行、比较常用的方法。当测定次数n=3-10次时,根据所要求的置信度可以按下列步骤检验可疑数据取合:
(1)将数据按递增的顺序排列;(2)求出最大与最小数据之差;(3)求出可疑数据与其最邻近数据之间的差;(4)求出Q计=(xn-xn-1)/(xn-x1)或Q计=(x2-x1)/(xn-x1)(5)根据测定次数n和要求的置信度(如95%),查下表得出Q0.95。(6)将Q计与Q0.95相比,若Q≥Q0.95,则弃支可疑值,否则应予保留。
具体怎么检验,与可疑值的分布情况有关。可疑值的分布,一般可分以下几种情况:
(1)在一组由小到大排列的数据中,一个可疑值分布于平均值的一侧;(2)两个可疑值分布于平均值的两侧;(3)两个可疑值分布于平均值的同侧。
对第一类隋况,第三类情况检验比较简单,处理方法比较一致,无需重新提出讨论。下面对第二种情况进行的检验问题。
在实际工作中,一组由小到大排列的测定值,其离群值可能分布于平均值的两侧,因此,掌握两个极端值的检验问题,其有一定的代表l生和现实性。从三种不同的检验处理方法着存在问题。
3.1.1用Q检验法决定取合时,在三个上的数据中,如果先检验最小值,然后再检验最大值。7次测定数据中,其中1.80和2.32与其它5个数据相差较大,要分别进行检验。
先检验最小值1.80,Q计=0.60,查n值表得,n=7,Q(0.59)
[关键词]可疑数据、取合、方法选择
中图分类号:U415.1 文献标识码:A 文章编号:1009-914X(2013)05-0310-01
前言:在定量分析工作中,通常要对同一试样做几份平行测定,然后求出平均值。如果数据中出现显著性差异,即有的数据特大或特小(称为可疑值或离群值),是否都能参加平均值的计算呢?这就需要用统计学方法进行检验,不得随意弃去或保留可疑值。
实验结果可疑数据的取合方法很多:包括Q值检验法、格鲁布斯检验法、t值检验法、F检验法等等,下面借一组数据只对Q检验法、格鲁布斯检验法进行对比。看哪种方法更适合实验室应用。
1.数据整理
首先要把实验数据加以整理,剔除由于明显的原因而与其它测定结果相差甚远的那些数据,对于一些精密度似乎不甚高的可疑数据,则要通过一定的方法决定取合,然后计算数据的平均值、各数据对平均值的偏差、平均偏差与标准偏差,最后按照要求的置信度求出平均值的置信区间。
2.置信度与平均值的置信区间
有了平均值和平均值的标准偏差,就能以±s(表示平均值s表示平均值的标准偏差)的形式表示分析结果,从而推算出所要测定的真值所处的范围,这个范围就称为平均值的置信区间,真值落在这个范围内的几率称为置信度。通常化学分析中要求置信度95%。测定次数越多,置信区间的范围越窄,即测定平均值与总体平均值(真值)越接近,但是测定结果超过20次以上置信度的几率系数变化不大,再增加测定次数对提高测定结果的准确度已经没有什么意义了,所以只有在一定的测试次数范围内,分析数据的可靠性才随平行测定次数的增加而增加。
3.实验结果可疑数据的取舍方法对比
可疑数据的取合是对过失误差的判断,常用方法有Q检验法、格鲁布斯检验法主要用于确定检测结果的真实性。而针对分析方法准确性即系统误差的判断通常采用t值检验法和F值检验法,通常用于标准物质的数据整理。下面借一组数据对Q险验法、格鲁布斯检验法这两种方法进行对比。
例对某铅锌矿的含锌量进行七次测定,结果为:1.80,2.11,2.13,2.14,2.16,2.18,2.32试以Q检验法决定极端值的取合(置信度95%)。
3.1Q检验法基本要求
Q检验法是一种简便易行、比较常用的方法。当测定次数n=3-10次时,根据所要求的置信度可以按下列步骤检验可疑数据取合:
(1)将数据按递增的顺序排列;(2)求出最大与最小数据之差;(3)求出可疑数据与其最邻近数据之间的差;(4)求出Q计=(xn-xn-1)/(xn-x1)或Q计=(x2-x1)/(xn-x1)(5)根据测定次数n和要求的置信度(如95%),查下表得出Q0.95。(6)将Q计与Q0.95相比,若Q≥Q0.95,则弃支可疑值,否则应予保留。
具体怎么检验,与可疑值的分布情况有关。可疑值的分布,一般可分以下几种情况:
(1)在一组由小到大排列的数据中,一个可疑值分布于平均值的一侧;(2)两个可疑值分布于平均值的两侧;(3)两个可疑值分布于平均值的同侧。
对第一类隋况,第三类情况检验比较简单,处理方法比较一致,无需重新提出讨论。下面对第二种情况进行的检验问题。
在实际工作中,一组由小到大排列的测定值,其离群值可能分布于平均值的两侧,因此,掌握两个极端值的检验问题,其有一定的代表l生和现实性。从三种不同的检验处理方法着存在问题。
3.1.1用Q检验法决定取合时,在三个上的数据中,如果先检验最小值,然后再检验最大值。7次测定数据中,其中1.80和2.32与其它5个数据相差较大,要分别进行检验。
先检验最小值1.80,Q计=0.60,查n值表得,n=7,Q(0.59)
再检验最大值2.32,弃去1,80后,检验范围是2.11~2.32,n=6。同理,
Q计=0.67,查n值表得,Q(0.64)3.1.2如果先检验最大值再检验最小值计算方法如下,可以得出什么结果呢?
先检验最大值2.32,Q计=0.27,查n值表得,n=7,Q(0.59)>Q计(0.27),故2.32应保留。
再检验最低值1.80,Q计=0.60,查n值表得,n=7,Q(0.59)3.1.3分别独立处理
先检验最小值1.80,Q计=0.60,查n值表得,n=7,Q(0.59)再检验最大值2.32,Q计=0.27,查n值表得,n=7,Q(0.59)>Q计(0.27),故2.32应保留。
针对以上三种检验方法可以看出可疑值的先后检验顺序不同,得出的结论也就不同,说明这种检验方法带有一定的随意性,以及处理方法不够完善等。
3.2格鲁布斯法
其中格鲁布斯法在判断可疑值过程中,由于正态分布中两个重要的样本参数和S引入进来故方法的准确性较高,特别是当几種取台方法的结论不一致时,通常以格鲁布斯法的结论作依据。
(1)将数据按递增的顺序排列;(2)求出平均值标准偏差S;(3)计算G计=(X-)/S或G计=(-X1)/S(4)查表得G;(5)G计>G弃去,反之保留。
还是上面这组数据,分别检验5.02和6.98是否弃去,根据格鲁布斯检验法要求:
先计算结果的平均值=2.12;再计算两个可疑数据的偏差d分别为d1.80=0.32和d2.32=0.20;暂时合去偏差较大的离群值1.80,用其余6个测定值去求得平均值=2.17和标准偏差S=0.07;再检验2.32,G计=(X)/S=2.14;置信度95%,n=6时,查得临界值G=1.82,G计(2.14)>G(1.82),故2.32应弃去,因此偏差值较大的1.80也应舍弃。
3.3实验结果可疑数据的取舍方法选择
其实在实际应用过程中Q险验法要简便得多,但通过上述计算可以看出Q检验法存在一定的弊端。但是我们可以把Q险验法和格鲁布斯检验法相结合来进行对可疑数据的取合。
还取上一组数据,先计算可疑数据的偏差分别是d1.80=-0.32和d2.32=0,20;
把标准偏差大的数据先舍弃,而改用Q值检验法计算标准偏差小的数据,弃去1.80后,检验范围是2.11~2.32,n=6,Q计=0.67,查n值表得,Q(0.64)因此偏差大的数据1.80应该合弃。
4.结果讨论
在分析工作中,为了保证检测质量可能要在检测样品中加入监控样,监控样可能是标准物质给定数值。但是我们可以通过实验获得的几组数据后,经过处理分析数据时,校正系统误差和剔除错误的测定结果后,计算出结果可能达到的准确范围,与给定的真值相比较可以发现我们在测试过程中出现的偏差,找出造成误差的原因。可以让我们的监控样品在检测过程中真正的起到质量监督的作用。因此在计算监控样品总体平均值(真值)前必须对可疑值进行合理取合,监控样品总体平均值(真值)定值的准确性高也可提高检测过程中的自我监控能力。
作者简介
刘东,女,辽宁省抚顺人,工程师,主要从事地质实验测试工作。