论文部分内容阅读
摘 要:调查数据缺失值是日常统计工作中一种不可避免的现象。它的出现不仅给统计工作造成了诸多不便,而且使统计调查的准确性受到影响。因此分析各种调查数据缺失现象产生的原因,并根据具体情况找到适宜的解决办法,是历来统计调查的一项重点工作。针对这一问题从不同方面总结归纳,并提出了解决方法。
关键词:统计数据 缺失值 插补
一、统计数据缺失的主要原因
社会经济的高速发展,离不开统计调查和分析工作,做好统计工作重点是提高调查数据的精度和分析的准确性。出现统计数据缺失值是日常统计工作中的一种常见现象,造成统计数据缺失现象的原因也多种多样,归纳起来主要有一下几个方面:
1.统计信息被遗漏。这种情况发生在统计过程的很多阶段,如:统计调查阶段,被调查者认为所调查的问题不够重要,有关的问题没有填写完整,造成统计数据被遗漏,或者是被调查者由于知识水平的原因不能理解问题不能给出相应问题的答案而造成统计数据被遗漏,或者是对于敏感性的问题(如收入、年龄等等),被调查者不愿意被其他人知道而采取避而不答,造成我们得到的统计数据就不完整;在数据录入过程中,由于操作人员的失误也会使得一些统计数据被遗漏,如:调查问卷上这方面的数据是有的,但在录入计算机的过程被遗漏了,还有可能是统计数据在录入计算机的过程中,计算机突然发生故障或是人为操作原因导致统计数据存储失败。
2.很多统计信息无法得到。如:不公开的统计数据或者没有准确的获取数据的途径。我们正处于一个大数据时代,很多人就想分析一下其他行业或商家的交易信息怎么样,或者是做微商的人们想了解同行業交易信息情况,但是这些商家或竞争对手并没有公开这些数据,致使我们没有办法得到这方面的信息;还有一些行政记录的统计数据,我们缺乏数据的获取手段或是出于数据保密性的原因,行政部门不公开这些数据,或没有义务公开相关的数据,造成我们也是没办法得到的该方面数据;还有很多统计数据我们目前没有准确的测定方法,如:我们国家一个非常重要的宏观经济政策就是改善民生,这几年我国居民对民生改善的满意度怎么评价,我们就无法找到一个合适的统计指标来测定,这些方面也没有一个成熟的、有说服力的或者是统一的口径。
3.很多统计信息的获取代价很大。如:需要调查某个公司的统计数据,一般的公司统计数据是公司内部保密数据,他们不对外公布,我们如果希望获得公司这些内部数据就需要采取一些方法。像一般统计数据,是公司的敏感数据,他们也许拒绝提供或者提供的数据不是最原始的,还有许多方面的数据,如上市公司,它的很多数据就没有公布,即我们不能从公开的统计数据中获取我们所需要的信息,所以就需要对其进行单独调查,如果需要花费的成本很高的话我们就可能把这方面的数据放弃了,也就造成了统计数据的缺失。
4.并不是所有调查对象的属性都是可用的。我们在设计统计调查问卷时,对某些问题考虑的不周全,造成我们要调查的统计数据缺失,如:需要调查居民的收入,但是选取的调查对象不合适,如儿童或是学生,他们还没有参加工作,所以也就造成调查问卷数据的缺失。
二、统计数据缺失值的处理方法
1.删除个案法。所谓的删除个案法就是要把含有缺失数据的整条记录删除掉。即如果调查问卷的数据存在缺失现象,就把它直接删除,这种方法简单,但也存在很多的问题。一般情况下我们所调查的数据是按照一定的方法进行的,有一定的代表性。如果因为存在缺失值直接把这些数据都删除的话,那么这些数据所代表的那一类信息也就不存在了。我们根据样本数据推断总体也就存在偏差。所以当缺失的统计数据只在整个记录中占很小的比例时,我们可以直接把含缺失数据的记录直接删除,剩下的数据按完全数据处理。但如果缺失数据占有很大比例时,直接删除就会造成偏差或是导致错误的结论,同时造成大量的统计数据丢失。这样即浪费了时间和精力,又得不到需要的统计数据。一般情况下,我们最常用的方法不是删除法,而是插补法。
2.插补缺失值的方法。插补法是目前最常用的处理缺失值的方法,针对不同类型的统计数据缺失值采取不同的技术进行处理,使这些含有缺失值的统计数据找到一个合适的填补值,再对这些“完整数据”按照相应的统计分析方法进行分析。
2.1均值插补。这是最常用的方式,也是最简单的方式,如果一个数据缺失了,就用这个数据的前面一行和后面一行的数据相加,对这两个数据求平均数,用这个平均数对缺失值进行插补。如果前一行和后一行的数据相差很多时,采取均值插补就会造成插补值与实际值严重偏差。
2.2对同类数据求均值进行插补。我们把数据先分类再插补,即把数据分成不同的类别,如果某类别含有缺失值,就用该类别其他数据计算的平均数进行插补,这样可以减少统计数据的偏差。
2.3热平台插补或就近补齐法。对于一个含有缺失值的变量,这种方法是在完整统计数据中找一个与缺失变量最接近的变量,然后用该变量的值对缺失值进行插补。与均值插补相比,可以保持数据的类型,填补后与原变量也很相近,但是这种方法主观性太强。
2.4冷平台插补。这种方法与热平台接近,不同的是冷平台插补需要用前期的统计数据或是历史数据进行插补。
2.5推理插补。这种插补的方法是根据已知的信息推断缺失值,再根据以前调查积累的数据或是目前进行调查的项目推断。例如从一个调查家庭中得到了三个孩子的姓名,根据已知信息就可以推断出该家庭有三名子女。
2.6使用任何值进行插补。这种方法是用缺失值任何可能的数据进行插补。这种方法的缺点是:当数据量很大或是数据很多时,它的计算量也是很大的,相应的需要测定的工作量也很大。
3.采取不处理方法。既然每种方式都有其缺点,于是就直接采取不处理的方法,对包含缺失值的统计数据进行分析,这样既可以节省时间又可以减轻负担。但是用这种方法也是有一定前提的,需要使用者对含有缺失值的数据先进行假设,在没有任何参考知识的前提下,容易造成所得错误结论。
综合以上的方法,我们可以清楚地看到,每种方法有每种方法的适用条件,每种方法也都存在不足的地方。因此对出现的不同问题不能一概而论,而应该首先分析问题的实质,然后采用适当的方法进行处理,使不完整的统计数据得到最佳的利用。
参考文献:
[1]陈朋强.浅谈统计调查缺失数据产生的原因与对策[J].《引文版:社会科学》,2015,(2):31-31.
[2]李薇.统计调查中的数据缺失及处理[J].《商业研究》,2003,(6):162-163.
[3]庞庆生.缺失数据处理方法的比较[J].《统计与决策》,2010,(24):152-155.
关键词:统计数据 缺失值 插补
一、统计数据缺失的主要原因
社会经济的高速发展,离不开统计调查和分析工作,做好统计工作重点是提高调查数据的精度和分析的准确性。出现统计数据缺失值是日常统计工作中的一种常见现象,造成统计数据缺失现象的原因也多种多样,归纳起来主要有一下几个方面:
1.统计信息被遗漏。这种情况发生在统计过程的很多阶段,如:统计调查阶段,被调查者认为所调查的问题不够重要,有关的问题没有填写完整,造成统计数据被遗漏,或者是被调查者由于知识水平的原因不能理解问题不能给出相应问题的答案而造成统计数据被遗漏,或者是对于敏感性的问题(如收入、年龄等等),被调查者不愿意被其他人知道而采取避而不答,造成我们得到的统计数据就不完整;在数据录入过程中,由于操作人员的失误也会使得一些统计数据被遗漏,如:调查问卷上这方面的数据是有的,但在录入计算机的过程被遗漏了,还有可能是统计数据在录入计算机的过程中,计算机突然发生故障或是人为操作原因导致统计数据存储失败。
2.很多统计信息无法得到。如:不公开的统计数据或者没有准确的获取数据的途径。我们正处于一个大数据时代,很多人就想分析一下其他行业或商家的交易信息怎么样,或者是做微商的人们想了解同行業交易信息情况,但是这些商家或竞争对手并没有公开这些数据,致使我们没有办法得到这方面的信息;还有一些行政记录的统计数据,我们缺乏数据的获取手段或是出于数据保密性的原因,行政部门不公开这些数据,或没有义务公开相关的数据,造成我们也是没办法得到的该方面数据;还有很多统计数据我们目前没有准确的测定方法,如:我们国家一个非常重要的宏观经济政策就是改善民生,这几年我国居民对民生改善的满意度怎么评价,我们就无法找到一个合适的统计指标来测定,这些方面也没有一个成熟的、有说服力的或者是统一的口径。
3.很多统计信息的获取代价很大。如:需要调查某个公司的统计数据,一般的公司统计数据是公司内部保密数据,他们不对外公布,我们如果希望获得公司这些内部数据就需要采取一些方法。像一般统计数据,是公司的敏感数据,他们也许拒绝提供或者提供的数据不是最原始的,还有许多方面的数据,如上市公司,它的很多数据就没有公布,即我们不能从公开的统计数据中获取我们所需要的信息,所以就需要对其进行单独调查,如果需要花费的成本很高的话我们就可能把这方面的数据放弃了,也就造成了统计数据的缺失。
4.并不是所有调查对象的属性都是可用的。我们在设计统计调查问卷时,对某些问题考虑的不周全,造成我们要调查的统计数据缺失,如:需要调查居民的收入,但是选取的调查对象不合适,如儿童或是学生,他们还没有参加工作,所以也就造成调查问卷数据的缺失。
二、统计数据缺失值的处理方法
1.删除个案法。所谓的删除个案法就是要把含有缺失数据的整条记录删除掉。即如果调查问卷的数据存在缺失现象,就把它直接删除,这种方法简单,但也存在很多的问题。一般情况下我们所调查的数据是按照一定的方法进行的,有一定的代表性。如果因为存在缺失值直接把这些数据都删除的话,那么这些数据所代表的那一类信息也就不存在了。我们根据样本数据推断总体也就存在偏差。所以当缺失的统计数据只在整个记录中占很小的比例时,我们可以直接把含缺失数据的记录直接删除,剩下的数据按完全数据处理。但如果缺失数据占有很大比例时,直接删除就会造成偏差或是导致错误的结论,同时造成大量的统计数据丢失。这样即浪费了时间和精力,又得不到需要的统计数据。一般情况下,我们最常用的方法不是删除法,而是插补法。
2.插补缺失值的方法。插补法是目前最常用的处理缺失值的方法,针对不同类型的统计数据缺失值采取不同的技术进行处理,使这些含有缺失值的统计数据找到一个合适的填补值,再对这些“完整数据”按照相应的统计分析方法进行分析。
2.1均值插补。这是最常用的方式,也是最简单的方式,如果一个数据缺失了,就用这个数据的前面一行和后面一行的数据相加,对这两个数据求平均数,用这个平均数对缺失值进行插补。如果前一行和后一行的数据相差很多时,采取均值插补就会造成插补值与实际值严重偏差。
2.2对同类数据求均值进行插补。我们把数据先分类再插补,即把数据分成不同的类别,如果某类别含有缺失值,就用该类别其他数据计算的平均数进行插补,这样可以减少统计数据的偏差。
2.3热平台插补或就近补齐法。对于一个含有缺失值的变量,这种方法是在完整统计数据中找一个与缺失变量最接近的变量,然后用该变量的值对缺失值进行插补。与均值插补相比,可以保持数据的类型,填补后与原变量也很相近,但是这种方法主观性太强。
2.4冷平台插补。这种方法与热平台接近,不同的是冷平台插补需要用前期的统计数据或是历史数据进行插补。
2.5推理插补。这种插补的方法是根据已知的信息推断缺失值,再根据以前调查积累的数据或是目前进行调查的项目推断。例如从一个调查家庭中得到了三个孩子的姓名,根据已知信息就可以推断出该家庭有三名子女。
2.6使用任何值进行插补。这种方法是用缺失值任何可能的数据进行插补。这种方法的缺点是:当数据量很大或是数据很多时,它的计算量也是很大的,相应的需要测定的工作量也很大。
3.采取不处理方法。既然每种方式都有其缺点,于是就直接采取不处理的方法,对包含缺失值的统计数据进行分析,这样既可以节省时间又可以减轻负担。但是用这种方法也是有一定前提的,需要使用者对含有缺失值的数据先进行假设,在没有任何参考知识的前提下,容易造成所得错误结论。
综合以上的方法,我们可以清楚地看到,每种方法有每种方法的适用条件,每种方法也都存在不足的地方。因此对出现的不同问题不能一概而论,而应该首先分析问题的实质,然后采用适当的方法进行处理,使不完整的统计数据得到最佳的利用。
参考文献:
[1]陈朋强.浅谈统计调查缺失数据产生的原因与对策[J].《引文版:社会科学》,2015,(2):31-31.
[2]李薇.统计调查中的数据缺失及处理[J].《商业研究》,2003,(6):162-163.
[3]庞庆生.缺失数据处理方法的比较[J].《统计与决策》,2010,(24):152-155.