论文部分内容阅读
缺失数据是科学研究中的一种常见现象.如在人口普查、环境监测、医学试验及森林资源调查等大型资料的收集与分析活动中,往往由于失访、无回答、填写结果不合格、森林资源的原样地已不存在,以及在资料收集、整理过程中不合逻辑的数据剔除等,都会产生缺失数据的现象.当缺失数据客观存在时,如何进行科学处理,以便充分利用已有的信息资料,准确反映研究群体的特征,并进行预测、预报,以达到预期研究之目的,已成为信息社会中统计分析研究的一个难点和热点问题,具有重要的理论意义和实用价值.
本文主要内容如下:
1.回顾了通常解决缺失数据问题的借补方法.如单值借补、多值借补等.借助于现代统计计算的手段,如EM算法、DA算法和MCMC方法等,给出了进行借补的统计原理和方法.
2.简单介绍了林学研究中的常见模型,主要研究在缺失数据下,对线性模型参数的估计方法,推导出了基于EM算法和MCMC方法参数估计的迭代公式.
3.以8个杉木固定样地观测资料的真实数据建立的模型为依据,给出了用EM算法、Gibbs抽样方法以及多重借补方法在不同缺失率下的参数估计,实现了上述三种算法在林分生长模型有缺失数据时的应用,得到了较好的结果.结果表明:多重借补方法仍然是目前解决缺失数据问题的一种较好方法.