论文部分内容阅读
在实际生活众多领域中,经常会收集到大量的缺失数据;尤其是在经济等相关领域中,随着计算机技术的不断发展可获数据的维数越来越高,人们需要处理的数据都是大量的高维数据.维数的增加就会伴随着数据的缺失,那么传统的统计分析方法就不再适合.于是,如何在数据缺失且维数较高的情况下,进行更为有效地统计推断也引起了 多统计学者的关注.成分数据主要用来研究的是构成某个整体的各部分之间的比重,一般解决成分数据的方法是将单形空间上的成分数据转换为欧氏空间上的普通数据,再进一步对普通数据进行统计分析.当成分数据在变换过程中,由于一些主客观等原因会导致成分数据中含有大量的缺失值.如何对成分数据中的缺失数据进行插补,得到完整的数据集是成分数据统计分析研究的首要任务.本文引入一个新的插补方法来处理高维成分数据,并对新的方法进行模拟和实证分析,再与MEAN插补法、knn插补法、ILSR插补法和ILTSR插补法进行比较研究.本文主要研究的是如何处理缺失数据并进行变量选择,包括以下几个工作:(1)了解数据缺失机制和缺失模式;(2)研究处理缺失数据的常用插补方法;(3)提出基于LASSO方法的缺失数据的处理方法;(4)通过模拟研究和实例分析对各种方法的插补效果进行比较分析,分析各方法的优劣和适用范围;(5)归纳总结缺失数据的插补效果的优劣.