论文部分内容阅读
基于总体信息、样本信息以及先验信息的统计推断称为Bayes推断,它与经典统计学中统计推断的主要差别在于是否利用先验信息.在使用样本信息上也存在差异,Bayes学派注重考虑已出现的样本观察值,而对未出现的样本观察值不予考虑,Bayes学派特别重视先验信息的搜集、挖掘和加工,使其数量化,形成先验分布并将先验信息运用于统计推断,这样可以提高统计推断的质量.在进行统计推断时若不考虑先验信息可能是一种浪费,有时还会导致出现不合理结论.
随着现代生物医学、社会学、经济学以及教育心理学等学科的快速发展,2×2列联表的统计推断是时常面临的问题.尤其在流行病学中经常遇到.例如:假设n1+个肺癌患者,其中有x1个吸烟,n1+-x1个不吸烟;又有n2+个与肺癌患者年龄、性别及其他属性相类似的健康人(对照组),其中有x2个吸烟,n2+-x2个不吸烟.这样就得到一张2×2列联表,并且x1~b(n1+,p1),X2~b(n2+,p2),X1和X2相互独立.目前国内外对上述2×2列联表的研究主要集中在两个属性的独立性检验及p1和p2的比较上.针对二属性的独立性检验,频率学派已作过大量研究,给出了Pearsonχ2检验,似然比检验以及Fisher精确检验,而对上述二属性的Bayes检验的研究目前国内外从事这方面研究的人还为数不多,本文将针对这一问题全面系统地进行研究.关于2×2列联表的Bayes推断迄今为止Bayes学派虽已作过大量工作,但他们的研究都存在各自的不足,本文将对归因风险△=p2—p1,相对风险ρ=p2/p1以及比差比ψ=p1/(1-p1)/p2/(1-p2)的Bayes推断在研究方法上做进一步的改进.关于两个二项实验中样本容量的确定不论频率学派还是Bayes学派都提出了大量的计算公式以及具体的计算方法,本文将对两个二项实验的样本容量的确定利用最小风险准则给出了新的Bayes方法.本文的主要研究内容如下:
1.关于2×2列联表中二属性的独立性给出了Bayes检验方法,对于假设检验H0:p1=p2←→H1:p1≠p2,利用p1和p2的先验分布pi~beta(αi,βi)(i=1,2)推出了该检验的Bayes因子计算公式.针对三项假设H0:θ=0,H11:θ>0,H12:θ<0分别推出了H0:θ=0,H11:θ>0以及H12:θ<0的后验概率α0,α11和α12的计算公式(利用正态近似)(θ=p1-p2).通过实证分析,我们得出结论:Bayes检验与频率学派的假设检验其检验结果基本一致,但Bayes检验的计算过程相对以往的假设检验比较简单.
2.对于2×2列联表的Bayes推断,由于归因风险△,相对风险ρ及比差比ψ分别可表示为△=(π21/π2+)-(π11/π1+),ρ=(π21π1+)/(π11π2+)和ψ=π11(π2+-π21)/π21(π1+-π11)(π1++π2+=1),考虑先验结构P(π11,π1+)=P(π1+)P(π11|π1+),P(π21,π2+)=P(π2+)P(π21|π2+),其中π1+~beta[0,1](a,b),π11|π1+~beta[0,π1+](a1,b1),π2+=1-π1+~beta[0,1](b,a),π21|π2+~beta[0,π2+](a2,b2),当ai和bi为正数时,后验分布存在.由于π11|π1+与π21|π2+相互独立,所以有P(π11,π21|π1+,π2+)=P(π11|π1+)P(π21|π2+).在上述条件下可以求出(π11,π21,π1+)的后验分布,从而可求出△,ρ以及ψ的后验均值和后验方差,利用正态近似求出了△,ρ以及ψ的最大后验密度置信区间.模拟研究表明利用Bayes推断得出的结论与Fisher精确检验以及利用假设检验的p值得出的结论基本一致.
3.对于假设检验H0:p1=p2←→H1:p1≠p2,在求其最佳样本容量时,本文通过令θ=0和θ=1分别表示H0:p1=p1和H1:p1≠p1,在损失函数L(i,j)=1-δij,i,j=0,1,(δi,j=1ifi=j,否则等于0)下,上述假设检验就转化为Bayes决策.根据Neyman—Pearson引理,Bayes后验决策函数是最优势检验,并且当n→∞时,犯第一类错误的概率趋近于0.于是利用假设检验的功效可求出最佳样本容量.这样做融合了Bayes学派与频率学派的观点,从而使确定样本容量的方法得到进一步发展,体现了Bayes学派与频率学派观点的一致性.经过实证分析验证了该方法与以前的计算方法计算结果具有一致性,但是本文的方法相对别的方法计算过程比较简单.
4.在估计两个二项比率差p1-p2时如何确定样本容量,本文利用最小风险准则对样本容量的计算方法作了进一步改进.首先证明了在0—1损失函数下,最小风险准则与ACC准则相等价,因此,最小风险准则更具有普遍性.在平方损失函数下,参数θ的Bayes估计就是θ的后验均值,其Bayes后验风险即为后验方差.根据前面的研究结论,利用此方法计算样本容量不仅计算过程简单,而且风险较小.
综上所述,本文首次给出了2×2列联表中二属性独立性的Bayes检验;对于2×2列联表的Bayes推断,由于p1和p2都是π11,π21以及π1+的函数,本文通过给出π1+的先验beta分布以及π1和π21的广义beta先验分布得出了(π11,π21,π1+)的联合后验分布以及△,ρ及ψ的后验均值和后验方差.结合正态近似对△,ρ及ψ的最大后验密度置信区间的估计进行了修正.针对两个二项实验的样本容量的确定,融合Bayes学派和频率学派的观点给出了新的计算方法.对于估计两个二项比率差p1-p2时样本容量的确定本文利用Bayes风险准则简化了计算过程.