论文部分内容阅读
[摘 要]随着计量检定在各专业领域应用的普遍,人们对计量检定结果的准确度和精度也提出了更高的要求。当前,带来检定结果的准确度降低的原因主要是混入了“异常值”,而当检定人员在计量检定中由于人为或者客观因素造成的过失,或者外界条件的突然改变,都会造成异常数据的产生,属于比较普遍的现象。因此,相关检定人员要掌握异常值剔除的有效方法。本文结合笔者实践工作经验,首先对计量检定中异常值形成的原因及判断方法进行了分析,在此基础上分析了拉依达准则、肖维勒准则、狄克逊准则等三种应用较为广泛的异常值剔除方法,希望可以为相关的理论和实践提供借鉴。
[关键词]计量检定;异常值;剔除方法;拉依达;肖维勒准则
中图分类号:P413 文献标识码:A 文章编号:1009-914X(2015)33-0390-01
一、计量检定中异常值的形成
通过计量检定获取的数据中如果混入了“异常值”,势必会对检定的结果带来一定的影响。这时如果可以有效地将异常值进行剔除,那么获得的结果必定是更加客观和符合事实情况。而在实际中还存在着这么一种情况,某组通过正确和客观测得的具有分散性的数值,本来是可以正确地对事实本身进行反映,是仪器在特定条件下进行测量的随机波动特性。相关人员为了获得更加精密的结果,而人为地对其中误差比较大的数值进行剔除,殊不知这些误差较大的值并不属于异常值,实质上是虚假的。以后在相同条件下对该组数据进行重新检定时候,和该误差值类似的误差值就会可能再次出现,甚至出现多次的情况。那么异常值是如何产生的呢?笔者认为,当检定人员在计量检定中由于人为或者客观因素造成的过失,或者外界条件的突然改变,都会造成不正常数据的产生,是含有粗差的数据。粗误差产生的原因是多方面的,比如读错数据、记错记录、计算错误、调错标志、仪器故障和操作不当等都会造成粗误差产生。。
以下情况下确认的数据都可以确定为粗误差,可以将其予以剔除:
1)标准器或检定设备不正常或者操作不当时的读数;
2)模拟环境条件超过规定值或稳定性不符合要求的读数;
3)经过校准或者补测确认的粗误差。
二、计量检定中异常值的判断方法
(1)异常值物理判断法
上文以及论述,在计量中很多异常值的产生都是因为检定人员的主观过失,包括读错数据、记录错误以及仪器突然的震动和跳动等,这类异常值是可以随时发现并予以剔除的,必要时,可以结合实际情况进行重新检定。这种在检定过程中对异常值进行判断和剔除的方法被称之为物理判断法。不过,在实际情况中,对可疑数据的处理务必要慎重,当发现异常数据后要立即停止检定,分析原因并及时纠正错误,如果检定已经结束,则应该先找出原因,再决定取舍。
(2)异常值统计学判断法
相对于异常值的物理判断法,还有一种方法是采用统计学的判断方法。该方法适用于整个计量检定已经完成后,并不能直观地认定哪一个数值是异常值的情况。统计学判断法的基本原理为,设定一个置信概率,并根据该置信概率确定一个相应的置信界限,凡是超过这个置信界限的误差,都认为其不属于随机误差的范畴,将其确定为粗误差,将其进行剔除。
三、计量检定中异常值的剔除方法
本文根据计量检定异常值的剔除实际运用情况进行分析,将当前采用的拉依达准则、肖维勒准则、狄克逊准则等三种剔除方法进行总结:
(1)拉依达准则
拉依达准则,又称之为3σ准则,其原理为:设对被测量进行等精度测量,独立得到X1,X2..., Xn,算出其算术平均值X及剩余误差Vi=Xi-X(i=1,2,...,n),并按贝塞尔公式算出标准误差σ,若某个测量值Xb的剩余误差Vb(1<=b<=n),满足下列3-1式:
|Vb|=|Xb-X|>3σ (式3-1)
就可以认为Xb是含有粗误差的异常值,就可以对其进行剔除。
在n足够大的情况下,采用拉依达准则是一种比较好的方法,可以有效地对异常值进行剔除,但是当n比较小时,就难以有效地将异常值进行判断并剔除,甚至会将正确的数值误判为异常值,从而成为“蒙蔽”检定人员的一种假象。为了有效改善拉依达准则的这种自身缺陷,当前利用的主要是下文将要描述的肖维勒准则。
(2)肖维勒准则
肖维勒准则是建立在频率P=m/n趋近于概率P{|Xi -?X|>Zcσ}的前提下,其中m是绝对值大于Ecσ的误差出现次数,P是设置的置信概率。
设等精度且呈正态分布的测量值为Xi,若其残差vi≥Zcσ则Xi可看做为含有粗误差的异常值,这时候就可以将Xi 剔除。在剔除Xi之后在重新进行计算和继续使用判别依据判断,以此类推,从而达到有效剔除异常值的目的。
(3)狄克逊准则
狄克逊准则是一种用极差比双侧检验来判别计量检定中异常值的准则,它从测量数据的最值入手,一般取显著性水平a为0.01。在运用该准则时,将检定数据划分为四个组,每个组都有相应的极端异常值统计量R1R2的计算方法,再根据测量次数n和对应的统计临界系数D(a,n)按照以下的方法来判别:
若R1> R2,R1> D(a,n),则判别X1 为异常值,应舍弃;
若R2> R1,R2>D(a,n),则应舍弃X n;
若R1< D(a,n)且R2< D(a,n),则没有异常值。
在当前采用的计量检定中的异常值剔除方法中,存在着多种方式。现在也没有一种统一的规范和标准,在实际应用中还需要根据检定数据的实际情况采用合适的剔除方法,以保证计量数据的准确、客观。
四、结束语
综上所述,在计量的检定过程中,为了有效避免异常值的出现,一方面要严格执行《计量检定规程》,在相应的操作规范和步骤下进行,另一方面要求计量检定人员在检定过程中务必要仔细、认真,对发现的异常值要采取合理的措施进行处理。为了有效剔除计量检定过程中不可避免产生的异常值,要充分结合当前应用较广泛的拉依达准则、肖维勒准则、狄克逊准则等三种剔除方法进行合理选择性使用,以保障计量检定数据的精度和准确度,以最终确认量值传递的准确性,提升整体的计量检定水平。
参考文献
[1]周中汉,王汉江,李梅,郭定和.利用DPS剔除测量数据中的异常值[J].计量技术.2007(10)
[2]楼润瑜,吴江云,王水生,钟继.检测数据异常值判断方法的优选[J].检验检疫科学.2008(06)
[3]张德然.统计数据中异常值的检验方法[J].统计研究.2003(05)
[4]张立伟.用数理统计的方法处理试验数据的异常值[J].电线电缆.2005(04)
[5]毋红军,刘章.统计数据的异常值检验[J].华北水利水电学院学报.2003(01)
[6]杭爱明.如何处理统计数据中的异常值问题[J].上海统计.1994(04)
[7]周强,欧阳一鸣,胡学钢,王浩.数据挖掘中应用偏最小二乘法发现异常值[J].微电子学与计算机.2005(01)
[8]王文周.未知σ,t检验法剔除异常值最好[J].四川工业学院学报.2000(03)
[关键词]计量检定;异常值;剔除方法;拉依达;肖维勒准则
中图分类号:P413 文献标识码:A 文章编号:1009-914X(2015)33-0390-01
一、计量检定中异常值的形成
通过计量检定获取的数据中如果混入了“异常值”,势必会对检定的结果带来一定的影响。这时如果可以有效地将异常值进行剔除,那么获得的结果必定是更加客观和符合事实情况。而在实际中还存在着这么一种情况,某组通过正确和客观测得的具有分散性的数值,本来是可以正确地对事实本身进行反映,是仪器在特定条件下进行测量的随机波动特性。相关人员为了获得更加精密的结果,而人为地对其中误差比较大的数值进行剔除,殊不知这些误差较大的值并不属于异常值,实质上是虚假的。以后在相同条件下对该组数据进行重新检定时候,和该误差值类似的误差值就会可能再次出现,甚至出现多次的情况。那么异常值是如何产生的呢?笔者认为,当检定人员在计量检定中由于人为或者客观因素造成的过失,或者外界条件的突然改变,都会造成不正常数据的产生,是含有粗差的数据。粗误差产生的原因是多方面的,比如读错数据、记错记录、计算错误、调错标志、仪器故障和操作不当等都会造成粗误差产生。。
以下情况下确认的数据都可以确定为粗误差,可以将其予以剔除:
1)标准器或检定设备不正常或者操作不当时的读数;
2)模拟环境条件超过规定值或稳定性不符合要求的读数;
3)经过校准或者补测确认的粗误差。
二、计量检定中异常值的判断方法
(1)异常值物理判断法
上文以及论述,在计量中很多异常值的产生都是因为检定人员的主观过失,包括读错数据、记录错误以及仪器突然的震动和跳动等,这类异常值是可以随时发现并予以剔除的,必要时,可以结合实际情况进行重新检定。这种在检定过程中对异常值进行判断和剔除的方法被称之为物理判断法。不过,在实际情况中,对可疑数据的处理务必要慎重,当发现异常数据后要立即停止检定,分析原因并及时纠正错误,如果检定已经结束,则应该先找出原因,再决定取舍。
(2)异常值统计学判断法
相对于异常值的物理判断法,还有一种方法是采用统计学的判断方法。该方法适用于整个计量检定已经完成后,并不能直观地认定哪一个数值是异常值的情况。统计学判断法的基本原理为,设定一个置信概率,并根据该置信概率确定一个相应的置信界限,凡是超过这个置信界限的误差,都认为其不属于随机误差的范畴,将其确定为粗误差,将其进行剔除。
三、计量检定中异常值的剔除方法
本文根据计量检定异常值的剔除实际运用情况进行分析,将当前采用的拉依达准则、肖维勒准则、狄克逊准则等三种剔除方法进行总结:
(1)拉依达准则
拉依达准则,又称之为3σ准则,其原理为:设对被测量进行等精度测量,独立得到X1,X2..., Xn,算出其算术平均值X及剩余误差Vi=Xi-X(i=1,2,...,n),并按贝塞尔公式算出标准误差σ,若某个测量值Xb的剩余误差Vb(1<=b<=n),满足下列3-1式:
|Vb|=|Xb-X|>3σ (式3-1)
就可以认为Xb是含有粗误差的异常值,就可以对其进行剔除。
在n足够大的情况下,采用拉依达准则是一种比较好的方法,可以有效地对异常值进行剔除,但是当n比较小时,就难以有效地将异常值进行判断并剔除,甚至会将正确的数值误判为异常值,从而成为“蒙蔽”检定人员的一种假象。为了有效改善拉依达准则的这种自身缺陷,当前利用的主要是下文将要描述的肖维勒准则。
(2)肖维勒准则
肖维勒准则是建立在频率P=m/n趋近于概率P{|Xi -?X|>Zcσ}的前提下,其中m是绝对值大于Ecσ的误差出现次数,P是设置的置信概率。
设等精度且呈正态分布的测量值为Xi,若其残差vi≥Zcσ则Xi可看做为含有粗误差的异常值,这时候就可以将Xi 剔除。在剔除Xi之后在重新进行计算和继续使用判别依据判断,以此类推,从而达到有效剔除异常值的目的。
(3)狄克逊准则
狄克逊准则是一种用极差比双侧检验来判别计量检定中异常值的准则,它从测量数据的最值入手,一般取显著性水平a为0.01。在运用该准则时,将检定数据划分为四个组,每个组都有相应的极端异常值统计量R1R2的计算方法,再根据测量次数n和对应的统计临界系数D(a,n)按照以下的方法来判别:
若R1> R2,R1> D(a,n),则判别X1 为异常值,应舍弃;
若R2> R1,R2>D(a,n),则应舍弃X n;
若R1< D(a,n)且R2< D(a,n),则没有异常值。
在当前采用的计量检定中的异常值剔除方法中,存在着多种方式。现在也没有一种统一的规范和标准,在实际应用中还需要根据检定数据的实际情况采用合适的剔除方法,以保证计量数据的准确、客观。
四、结束语
综上所述,在计量的检定过程中,为了有效避免异常值的出现,一方面要严格执行《计量检定规程》,在相应的操作规范和步骤下进行,另一方面要求计量检定人员在检定过程中务必要仔细、认真,对发现的异常值要采取合理的措施进行处理。为了有效剔除计量检定过程中不可避免产生的异常值,要充分结合当前应用较广泛的拉依达准则、肖维勒准则、狄克逊准则等三种剔除方法进行合理选择性使用,以保障计量检定数据的精度和准确度,以最终确认量值传递的准确性,提升整体的计量检定水平。
参考文献
[1]周中汉,王汉江,李梅,郭定和.利用DPS剔除测量数据中的异常值[J].计量技术.2007(10)
[2]楼润瑜,吴江云,王水生,钟继.检测数据异常值判断方法的优选[J].检验检疫科学.2008(06)
[3]张德然.统计数据中异常值的检验方法[J].统计研究.2003(05)
[4]张立伟.用数理统计的方法处理试验数据的异常值[J].电线电缆.2005(04)
[5]毋红军,刘章.统计数据的异常值检验[J].华北水利水电学院学报.2003(01)
[6]杭爱明.如何处理统计数据中的异常值问题[J].上海统计.1994(04)
[7]周强,欧阳一鸣,胡学钢,王浩.数据挖掘中应用偏最小二乘法发现异常值[J].微电子学与计算机.2005(01)
[8]王文周.未知σ,t检验法剔除异常值最好[J].四川工业学院学报.2000(03)