成分数据中基于LASSO的缺失值插补方法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:zhuzhongbao2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活众多领域中,经常会收集到大量的缺失数据;尤其是在经济等相关领域中,随着计算机技术的不断发展可获数据的维数越来越高,人们需要处理的数据都是大量的高维数据.维数的增加就会伴随着数据的缺失,那么传统的统计分析方法就不再适合.于是,如何在数据缺失且维数较高的情况下,进行更为有效地统计推断也引起了 多统计学者的关注.成分数据主要用来研究的是构成某个整体的各部分之间的比重,一般解决成分数据的方法是将单形空间上的成分数据转换为欧氏空间上的普通数据,再进一步对普通数据进行统计分析.当成分数据在变换过程中,由于一些主客观等原因会导致成分数据中含有大量的缺失值.如何对成分数据中的缺失数据进行插补,得到完整的数据集是成分数据统计分析研究的首要任务.本文引入一个新的插补方法来处理高维成分数据,并对新的方法进行模拟和实证分析,再与MEAN插补法、knn插补法、ILSR插补法和ILTSR插补法进行比较研究.本文主要研究的是如何处理缺失数据并进行变量选择,包括以下几个工作:(1)了解数据缺失机制和缺失模式;(2)研究处理缺失数据的常用插补方法;(3)提出基于LASSO方法的缺失数据的处理方法;(4)通过模拟研究和实例分析对各种方法的插补效果进行比较分析,分析各方法的优劣和适用范围;(5)归纳总结缺失数据的插补效果的优劣.
其他文献
桑粉虱Pealius mori(Takahashi)为我国桑因为害严重的害虫种类之一。本文概述了桑粉虱在国内分布、寄主种类、发生与危害等,探讨了近年来不同防治方法在控制桑粉虱危害中的作用,
日前,萧山科技局召开重大科技攻关项目专家评审会,对18个项目进行再次审核、评分。最后列入萧山区重大攻关项目共10个,其中工业7个,农业3个,最高将获得50万元的扶持资金。一些“含
已建成的多种化学诱导系统在植物中有广泛的应用,如基因功能分析、无标记植物转化、特定位点DNA切除、育性恢复和RNA沉默等方面的研究.本文所介绍的三种诱导系统GVG、pOp6/Lh