论文部分内容阅读
现在社会正处于一个“大数据”的时代,生物、互联网等各行各业每天产生着大量的数据。如何从这些庞大的高维数据中尽可能最大程度的发掘信息为越来越多的人所关注,已经成为统计学中重要的内容。而当我们想知道多个变量的相关性时,我们自然想到应用线性模型求出回归系数,Lasso方法便是其中较为成熟的方法。它通过将部分系数压缩为零而提高了模型的准确度与可解释性,是对OLS等传统方法的较大改进。然而,Lasso方法在将部分系数压缩为零时,并不能确定它的错误率情况,以FDR测度来度量,也就是不能控制FDR。本文以FDR方法为基础,研究线性模型下多元变量的相关性系数的估计。我们最终提出一个关于其系数是否为零的判别过程,并从理论和数值实验两方面指出该过程能有效控制错误发现率(FDR),且在控制FDR方面优于Lasso方法。