论文部分内容阅读
列联表是一种常见的数据存储格式,其中的数据是将观测数据按两个或者更多属性进行分类后的频数。列联表常用于医学、生物学、社会科学等学科之中。通过对列联表进行统计分析,可以考察各个属性之间是否有联系,也就是判断两个属性变量是否具有独立性.可用于检验列联表中的两个属性变量的独立性的假设检验方法有:卡方独立检验、Fisher精确检验、Cochran-Mantel-Haenszel检验[1]等。本文的目的是建立一个模型,进而基于这个模型提出一个新的检验方法,用于检验列联表的属性变量的独立性,这个模型也可以衡量两个属性变量的(正、负)相关性。本文的整体思路是通过引入一个可以衡量变量相关性的参数,构造一个二元二项分布,并将它用于对二维列联表的统计分析。在绪论中,我们总结了文献中已有的二元二项分布。假设随机向量(X,Y)服从二元二项分布,且两个边际分布都是二项分布,即X~Binomial(n1,π2)和Y~Binomial(n2,π2)。文献中已有的二元二项分布大致可以分成三类:第一种是要求n1与n2相等,即n1=n2=n;第二种是要求π1和π2相等,即π1=π2=π;第三种对n1,n2和π1,π2不做任何限制。显然,第三种二元二项分布的应用范围是最广的。本文基于文献Sarmanov(1966)中的方法,通过引入依赖参数λ,构造了一个新的二元二项分布,这个分布包含3个参数π1,π2和λ,并且它符合上述的第三种要求。我们研究了这个模型的分布性质,给出了均值、方差、相关系数的显式表达式,以及参数λ的取值范围。从相关系数的表达式可以看出,随机变量X和Y正(负)相关等价于参数λ为正(负)。在此基础上,本文考虑这个模型的参数估计以及基于参数λ的独立性检验。这个模型的似然函数比较复杂,模型参数的极大似然估计没有显式解,所以我们通过梯度下降法或者Fisher Scoring算法等迭代算法求解参数的极大似然估计,并使用重抽样方法估计了参数估计量的标准误差,同时构造了参数的重抽样置信区间。如果二维列联表中含有缺失数据,可以结合EM算法和梯度下降法来估计参数。在统计模拟的过程中会涉及到对分布进行抽样的问题,由于这个分布的边际分布是已知的简单分布,即两个二项分布,所以我们可以采用条件抽样法进行抽样。统计模拟的结果表明,参数估计的精度与样本量大小成正比。在构造这个分布的过程中可以看到,我们引入的参数λ可以衡量随机变量之间的相关性,即λ=0意味着随机变量X和Y不相关。因此,我们可以用二元二项分布对二维列联表进行建模,进而借助参数λ对二维列联表的两个属性变量做独立性检验,其中原假设是参数λ为零,备择假设是参数λ不为零。实际上每个二维列联表对应的是二元伯努利分布,即n1=n2=1的情形,但本文在构造假设检验方法的时候考虑的是更广的情形,即n1和n2可以是任意非负整数。我们采用了三种基于极大似然法的大样本检验方法:似然比检验、Wald检验和Score检验,并构造了相应的检验统计量,在原假设成立的条件下三者都服从自由度为1的卡方分布。对于样本量比较小的情况,我们采用重抽样技术,以降低假设检验的I型错误率。统计模拟的结果表明,当样本量比较大时,这三种检验方法的I型错误都可以被控制在预先设定的显著性水平左右浮动,而且似然比检验的表现优于其他两种检验方法。当n1=n2=1时,Wald检验和Score检验的结果一致。当样本量比较小时,采用重抽样方法可以明显降低检验的I型错误率,这说明在小样本情形下引入重抽样方法是可行且必要的。值得一提的是,OR值(odds ratio)也可以用来检验列联表的属性变量的独立性,如果OR值等于1,则表明两个属性变量X与Y相互独立。但是基于OR值的独立性检验方法存在缺陷,当参数π1,π2的真实值接近0或1时,这个方法可能会失效,而我们提出的方法可以避免这个问题,也就是说,当π1,π2接近0或1时,我们的检验方法依旧可行。变量X和Y呈正(负)相关等价于OR值大于(小于)1。与之类似,我们可以借助参数λ的正负性判断随机变量相关性的正负。综上所述,我们的检验方法比基于OR值的独立性检验方法更优。我们也通过统计模拟将基于参数λ的独立性检验和卡方独立检验进行对比,统计模拟的结果表明我们提出的检验方法的势大于卡方独立检验的势。所以,我们提出的方法优于卡方独立检验和基于OR值的独立性检验。在本文最后一章,我们考虑了二维列联表中的两个属性变量的独立性的多重检验问题。对于K个包含属性变量X和Y的二维列联表,我们希望检验X和Y是否在这K个二维列联表中都是独立的。对于单独的一个列联表,我们可以采用本文提出的基于参数λ的独立性检验方法。假设第k个列联表对应的依赖参数为λk,那么我们所关心的假设检验问题便可以表述成如下形式:H0:λ1=λ2=···=λK=0 v.s.H1:λk 0,?1?k?K.这个假设检验问题可以分解成K个单独的假设检验“H0k:λk=0 v.s.H1k 0’’,如果某个原假设H0k被拒绝,那么我们拒绝原假设H0。由于每次检验都会有一定的概率发生I型错误,所以每进行一次假设检验,都会提高整体的假设检验的I型错误率,也就是说,发生I型错误的概率会随检验次数增多而增大。因此,对假设检验的p值进行校正是有必要的,我们需要通过校正每次检验的p值来降低单次检验犯错的概率,从而降低整体犯错的概率。对p值进行校正等价于对显著性水平进行校正,如果假设检验问题的显著性水平定为α,而根据试验数据得到的p值记为p,那么增大p值等价于降低显著性水平α,二者都是为了提高假设检验的标准,从而降低假设检验的I型错误率。实际操作中比较常见的是对p值进行校正,而非校正显著性水平α,各种统计软件在处理多重检验问题时也都是校正p值,所以本文在考虑多重检验问题时候采取的方法是校正p值。多重检验问题中的p值校正主要从两个方面入手:一是控制总体错误率(Family Wise Error Rate,FWER),二是控制错误发现率(False Discovery Rate,FDR)。总体错误率是经典的控制多重检验错误率的指标,它的定义是至少犯一次I型错误的概率。最简单但也最保守的控制总体错误率的方法是Bonferroni法。如果多重检验问题包含K个单独的假设检验,Bonferroni法对p值的校正就是将每个p值乘以K,进而我们可以根据校正后的p值判断是否拒绝原假设。这个方法很保守,当K比较大时,Bonferroni法在降低I型错误率的同时也极大地提高了检验的II型错误率,也就是说会出现很多假阴性结果。除此之外,常用的控制总体错误率的方法有Holm法、Hochberg法和Hommel法等。这些方法都比较保守,使用这些方法的时候,假设检验的势会随着检验次数的增加而降低,因此它们不适合用于海量数据的多重比较。控制多重检验的总体错误率的方法还有Westfall和Young在1993年提出的min P法和max T法,这两种方法是基于重抽样技术的p值校正方法。另外一个常用的控制多重检验错误率的指标是错误发现率。1995年,Benjamni和Hochberg首次提出了错误发现率的概念,并给出了在多重检验中控制错误发现率的方法。错误发现率的定义是拒绝真的原假设的个数占所有被拒绝的原假设个数的比例的期望值。错误发现率刚被提出的时候并未受到重视,但随着时间的推移,海量数据的出现使得错误发现率有了广泛应用。常用的控制错误发现率的方法有BH法(Benjamini-Hochberg法)和BY法(Benjamini-Yekutieli法)等。我们在最后一章详细介绍了这些常用的p值调节方法,并将它们用于二维列联表中的两个属性变量的独立性的多重检验问题,同时基于重抽样技术构造了相应的min P法和max T法。我们对比分析了每个方法的优缺点,并且对K=2的情况做了统计模拟。统计模拟的结果表明,这些方法都可以有效地控制多重检验问题的I型错误率。