论文部分内容阅读
在数据收集过程中,往往会出现数据统计丢失、人为测量错误、以及自然不可控因素,这些都会造成数据缺失。例如在油田钻井风险评估需要用到大量的钻井现场数据,数据的缺失问题在风险评估中就成为了一个非常重要的问题。它不仅影响着统计分析的过程,而且容易对调查或者研究的结果造成干扰,使结果出现偏差,甚至得出错误的结论。针对如何处理缺失数据,国内外进行了大量的研究,目前仍然是统计学研究中的热门问题。普通的数据的分析都是基于完整的数据进行分析,而对含有缺失值的数据集来说,显然不能直接使用,需要对缺失值进行填补后才能在此基础上进行分析。本文首先介绍了数据的缺失机制和缺失模式,总结了常见缺失数据的处理方式方法,包括删除、插补和不处理三种方式。描述了对缺失值进行插补的常用五种插补法的数学原理,包括均值插补、中位数插补、回归插补法、EM插补和多重插补法。通过模拟三组单变量五种不同缺失率的缺失数据集,根据数据缺失模式采用四种方法进行填补,比较了多重插补次数和不同插补方法对效率的影响。在对某油田钻井现场数据进行了实证插补分析中,构造变量随机缺失5%-40%的数据集,采取基于主成分分析的多元回归插法补和其他插补法对缺失值进行填补。分别从均值误差值、均方误差值、回归系数以及回归系数的偏差角度四个方面比较了插补效果。插补结果显示:在低缺失率时均值插补多重插补法和多元线性回归法插补均值误差和均方误差更小,当缺失率变大时,回归插补和多重插补具有更好的插补效果。根据已有插补法提出了两种改进的插补法:RED插补法和DA-REG插补法,并且将新方法运用到实际插补中。通过各种比较并作出各缺失率插补值与真值拟合效果图,结果显示:均值插补和中位数插补的结果均值误差都较小,随着缺失率增大均方误差也变大,并且存在插补值单一的缺点;在低缺失率时,其他几种方法的插补结果与真值基本吻合,其中低缺失率时回归插补法和DA-REG插补效果最好;随着缺失率的提高,拟合效果逐渐变差。综合看,多重插补法DA-REG插补法两种插补法更好。