论文部分内容阅读
摘 要:随机变量的相关性是衡量变量之间关系的一个重要概念,具有广泛的应用背景。经典的皮尔逊相关系数只能判断变量之间的线性相关程度,而不能够识别变量之间的非线性相关。本文研究了近些年学术界提出的一些重要的度量随机变量间非线性相关的方法。同时对非线性相关在变量筛选方面的应用进行了分析,发现非线性相关在高维数据分析中得到广泛应用。
关键词:非线性相关;鞅差相关;距离相关;变量筛选
一、引言
随机变量的相关性是衡量变量之间关系的一个重要概念,具有广泛的应用背景。经典的皮尔逊相关系数只能判断变量之间的线性相关程度,而不能够识别变量之间的非线性相关。近几年,统计学家们提出了一些新的度量随机变量之间非线性相关性的量,例如Hoeffding’D,the affinely Distance Correlation、 Maximal Information Coefficient、Partial martingale difference correlation等。
随机变量的独立性检验一直是统计学研究的基本问题,虽然已经有很多文献和成果,但是总是存在着这样或那样的不足。正是这样的原因,该问题的研究一直都是统计学研究的热点问题。独立性检验可以从不同的角度来研究,例如把检验独立性转化为检验联合分布函数是否等于边际分布函数的乘积或者联合密度函数是否为边际密度函数的乘积。
二、几种重要非线性相关的度量方法
基于能够度量随机变量非线性相关的新的鞅差相关和偏鞅差相关概念,本文考虑独立性检验和条件独立性检验,以及条件变量筛选。具体地,对于独立性检验,本文考虑鞅差相关和偏鞅差相关分别检验变量之间的独立性和条件独立性,对于条件变量筛选,本文考虑基于偏鞅差相关及其迭代版本的条件筛选方法。
检验条件独立性的一大类方法是首先建立变量之间的相关性度量,该相关性在独立性成立的条件下一般为0。因此检验独立性就转化为检验变量之间的相关性度量是否为0。Szekely,Rizzo和Bakirov(2007)建立了距离相关
并利用该相关检验随机变量之间的相关性。进一步地,Szekely和Rizzo(2013)在高维数据下提出了一种基于距离相关的t检验方法。
有时候,已经知道某个协变量对响应变量有重要影响,需要检验在给定该变量的条件下,其它协变量和响应变量的条件独立性。Huang(2010)研究了基于最大非线性条件相关
.
的独立性检验方法。Volgushev,Birke,Dette和Neumeyer(2013)提出了一个检验分位数独立性的检验方法。
鞅差相关和偏鞅差相关是距离相关和偏距离相关的一个新拓展,能够很好的度量随机变量之间的相关性和条件相关性。而基于偏距离相关的独立性检验还未见有相关研究,但基于偏鞅差相关的方法能够有效避免模型指明错误的问题。
三、非线性相关的应用研究
随着获取数据技术以及计算机计算能力的提高,人类得到的数据维数越来越高,在文献中,该类数据被称为高维数据,经常出现在生物医学、基因组学、图像处理、金融經济等领域。
高维数据分析是近几年统计研究的一个热点问题,其中一个普遍的假定就是稀疏性原则(见文献Fan和Lv,2008),即在众多潜在对响应变量有影响的协变量中,只有少数协变量真正对响应变量有影响。变量筛选的目标就是当数据是超高维的时候找出这些重要的协变量。目前,变量筛选研究有两个主流方向,一个是通过边际回归模型的方法,另外一个是通过边际相关性的方法。对于第二种方法,现在的研究文献主要有Fan和Lv(2008),Li,Peng,Zhang和Zhu(2012),Zhu,Li,Li和Zhu(2012)等。
Fan和Lv(2008)第一次给出了基于边际相关性的变量筛选方法,即基于皮尔逊相关系数的方法。Li,Peng,Zhang和Zhu(2012)研究了基于Kendall’s tau的边际相关筛选方法。Zhu,Li,Li和Zhu(2012)提出了一个新的测量相关性的度量,并把它应用到变量筛选中。
当已经知道某个协变量对响应变量有重要影响,需要在这个条件下找出其它重要的协变量。这方面的研究主要有,Liu,Li和Wu(2014)与Barut和Fan(2016)。Liu,Li(2014)和Wu(2014)考虑了基于条件皮尔逊相关系数的变量筛选方法,并证明了相应方法的确定性筛选性质。Barut和Fan(2016)给出了基于广义线性模型的边际回归变量筛选方法。
高维数据分析是当前统计研究的热点和难点问题,相关的研究成果层出不穷。在高维数据分析中,一个基本问题就是,如何有效地找出对响应变量有重要影响的因素(协变量)。该问题可以从两个方面解决:第一,可以检验每一个协变量是否和响应变量独立,如果独立,则认为该协变量对响应变量无影响;第二,通过测量协变量与响应变量的边际相关性,然后按照相关性的绝对值的大小来选择对响应变量有重要作用的协变量。所以,非线性相关的研究对于高维数据的分析有着至关重要的作用。
参考文献
[1]Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances."?The Annals of Statistics35.6 (2007): 2769-2794.
[2]Fan J, Lv J. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70(5): 849-911.
[3]Shao X, Zhang J. Martingale difference correlation and its use in high-dimensional variable screening[J]. Journal of the American Statistical Association, 2014, 109(507): 1302-1318.
[4]Dueck J, Edelmann D, Gneiting T, et al. The affinely invariant distance correlation[J]. Bernoulli, 2014, 20(4): 2305-2330.
[5]Reshef D N, Reshef Y A, Finucane H K, et al. Detecting novel associations in large data sets[J]. science, 2011, 334(6062): 1518-1524.
作者简介:耿丽(1995——)女,汉族,山东诸城人,中国石油大学(华东)理学院,2013级本科生,数学与应用数学专业。
关键词:非线性相关;鞅差相关;距离相关;变量筛选
一、引言
随机变量的相关性是衡量变量之间关系的一个重要概念,具有广泛的应用背景。经典的皮尔逊相关系数只能判断变量之间的线性相关程度,而不能够识别变量之间的非线性相关。近几年,统计学家们提出了一些新的度量随机变量之间非线性相关性的量,例如Hoeffding’D,the affinely Distance Correlation、 Maximal Information Coefficient、Partial martingale difference correlation等。
随机变量的独立性检验一直是统计学研究的基本问题,虽然已经有很多文献和成果,但是总是存在着这样或那样的不足。正是这样的原因,该问题的研究一直都是统计学研究的热点问题。独立性检验可以从不同的角度来研究,例如把检验独立性转化为检验联合分布函数是否等于边际分布函数的乘积或者联合密度函数是否为边际密度函数的乘积。
二、几种重要非线性相关的度量方法
基于能够度量随机变量非线性相关的新的鞅差相关和偏鞅差相关概念,本文考虑独立性检验和条件独立性检验,以及条件变量筛选。具体地,对于独立性检验,本文考虑鞅差相关和偏鞅差相关分别检验变量之间的独立性和条件独立性,对于条件变量筛选,本文考虑基于偏鞅差相关及其迭代版本的条件筛选方法。
检验条件独立性的一大类方法是首先建立变量之间的相关性度量,该相关性在独立性成立的条件下一般为0。因此检验独立性就转化为检验变量之间的相关性度量是否为0。Szekely,Rizzo和Bakirov(2007)建立了距离相关
并利用该相关检验随机变量之间的相关性。进一步地,Szekely和Rizzo(2013)在高维数据下提出了一种基于距离相关的t检验方法。
有时候,已经知道某个协变量对响应变量有重要影响,需要检验在给定该变量的条件下,其它协变量和响应变量的条件独立性。Huang(2010)研究了基于最大非线性条件相关
.
的独立性检验方法。Volgushev,Birke,Dette和Neumeyer(2013)提出了一个检验分位数独立性的检验方法。
鞅差相关和偏鞅差相关是距离相关和偏距离相关的一个新拓展,能够很好的度量随机变量之间的相关性和条件相关性。而基于偏距离相关的独立性检验还未见有相关研究,但基于偏鞅差相关的方法能够有效避免模型指明错误的问题。
三、非线性相关的应用研究
随着获取数据技术以及计算机计算能力的提高,人类得到的数据维数越来越高,在文献中,该类数据被称为高维数据,经常出现在生物医学、基因组学、图像处理、金融經济等领域。
高维数据分析是近几年统计研究的一个热点问题,其中一个普遍的假定就是稀疏性原则(见文献Fan和Lv,2008),即在众多潜在对响应变量有影响的协变量中,只有少数协变量真正对响应变量有影响。变量筛选的目标就是当数据是超高维的时候找出这些重要的协变量。目前,变量筛选研究有两个主流方向,一个是通过边际回归模型的方法,另外一个是通过边际相关性的方法。对于第二种方法,现在的研究文献主要有Fan和Lv(2008),Li,Peng,Zhang和Zhu(2012),Zhu,Li,Li和Zhu(2012)等。
Fan和Lv(2008)第一次给出了基于边际相关性的变量筛选方法,即基于皮尔逊相关系数的方法。Li,Peng,Zhang和Zhu(2012)研究了基于Kendall’s tau的边际相关筛选方法。Zhu,Li,Li和Zhu(2012)提出了一个新的测量相关性的度量,并把它应用到变量筛选中。
当已经知道某个协变量对响应变量有重要影响,需要在这个条件下找出其它重要的协变量。这方面的研究主要有,Liu,Li和Wu(2014)与Barut和Fan(2016)。Liu,Li(2014)和Wu(2014)考虑了基于条件皮尔逊相关系数的变量筛选方法,并证明了相应方法的确定性筛选性质。Barut和Fan(2016)给出了基于广义线性模型的边际回归变量筛选方法。
高维数据分析是当前统计研究的热点和难点问题,相关的研究成果层出不穷。在高维数据分析中,一个基本问题就是,如何有效地找出对响应变量有重要影响的因素(协变量)。该问题可以从两个方面解决:第一,可以检验每一个协变量是否和响应变量独立,如果独立,则认为该协变量对响应变量无影响;第二,通过测量协变量与响应变量的边际相关性,然后按照相关性的绝对值的大小来选择对响应变量有重要作用的协变量。所以,非线性相关的研究对于高维数据的分析有着至关重要的作用。
参考文献
[1]Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances."?The Annals of Statistics35.6 (2007): 2769-2794.
[2]Fan J, Lv J. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70(5): 849-911.
[3]Shao X, Zhang J. Martingale difference correlation and its use in high-dimensional variable screening[J]. Journal of the American Statistical Association, 2014, 109(507): 1302-1318.
[4]Dueck J, Edelmann D, Gneiting T, et al. The affinely invariant distance correlation[J]. Bernoulli, 2014, 20(4): 2305-2330.
[5]Reshef D N, Reshef Y A, Finucane H K, et al. Detecting novel associations in large data sets[J]. science, 2011, 334(6062): 1518-1524.
作者简介:耿丽(1995——)女,汉族,山东诸城人,中国石油大学(华东)理学院,2013级本科生,数学与应用数学专业。