论文部分内容阅读
在生物医学研究中,对某种疾病在人群中的流行率的研究具有十分重要的意义。通常情况下人们首先对受试者利用价格便宜的筛检方法进行诊断,但是筛检方法会出现有误分类从而导致不正确的结论;金标准虽然没有误分类但价格通常昂贵。因而,为了克服二者的不足,常使用二重抽样方法对受试者进行诊断分类。二重抽样即是首先利用筛检方法对所有个体进行分类,然后再从中随机抽取部分个体利用金标准再进行分类。由于经过金标准再诊断的个体可以反映其真实的信息,因而将二重抽样获得的数据也称为部分核实数据。由于在现实生活中,基本不存在完全无误判的金标准,因而通过二重抽样获得的数据是无金标准的部分核实数据。本文基于两种分类器都有误判的部分核实数据,研究疾病患病率之差(即比例差)的置信区间构造以及区间宽度控制下的样本量确定问题。
首先,考虑了两种二重抽样模型,即满足条件独立性的模型一和不满足条件独立性的模型二。在这两种模型下,基于方差估计修正方法(即MOVER)提出了基于疾病流行率之差(比例差)的Wald置信区间,Log变换置信区间,Logit变换置信区间,Agresti-Coull置信区间,Score置信区间和似然比置信区间,Bootstrap重抽样置信区间和贝叶斯可信区间共计十二种区间估计方法。模拟研究了这些置信区间的经验覆盖概率,经验覆盖宽度以及近中非覆盖概率与非覆盖概率的比值。模拟结果表明:1)对于模型一,在小样本时,基于Wald置信区间,Log变换置信区间,Score置信区间,Bootstrap分位数置信区间和MOVER方法的比例差的置信区间有较好表现;随着样本量的增加,除了Bootstrap正态近似置信区间和Bootstrap分位数-t置信区间表现较为保守外,其余所有方法构造的置信区间均有令人满意的结果,因此被推荐于实际应用中;2)对于模型二,除了Bootstrap分位数-t置信区间表现有点保守外,其余置信区间均有令人满意的表现,因此也被推荐于实际应用中。
其次,本文从置信区间宽度的角度对比例差的样本量确定的问题进行研究,提出了在给定置信水平下,Wald置信区间,Score置信区间,似然比置信区间宽度控制在指定范围内的样本量估计公式。模拟研究了在估计样本量下的置信区间的经验覆盖概率和经验覆盖宽度。模拟结果表明:1)相同参数设置下模型一下各种方法所需样本量通常大于模型二下对应方法所需的样本量;2)在两种模型下,在估计的样本量下,置信区间的经验覆盖概率接近给定的置信水平且经验覆盖宽度接近设定的宽度,因而推荐在实际应用中使用。最后,通过疟疾数据的分析验证本文提出的方法的有效性。
首先,考虑了两种二重抽样模型,即满足条件独立性的模型一和不满足条件独立性的模型二。在这两种模型下,基于方差估计修正方法(即MOVER)提出了基于疾病流行率之差(比例差)的Wald置信区间,Log变换置信区间,Logit变换置信区间,Agresti-Coull置信区间,Score置信区间和似然比置信区间,Bootstrap重抽样置信区间和贝叶斯可信区间共计十二种区间估计方法。模拟研究了这些置信区间的经验覆盖概率,经验覆盖宽度以及近中非覆盖概率与非覆盖概率的比值。模拟结果表明:1)对于模型一,在小样本时,基于Wald置信区间,Log变换置信区间,Score置信区间,Bootstrap分位数置信区间和MOVER方法的比例差的置信区间有较好表现;随着样本量的增加,除了Bootstrap正态近似置信区间和Bootstrap分位数-t置信区间表现较为保守外,其余所有方法构造的置信区间均有令人满意的结果,因此被推荐于实际应用中;2)对于模型二,除了Bootstrap分位数-t置信区间表现有点保守外,其余置信区间均有令人满意的表现,因此也被推荐于实际应用中。
其次,本文从置信区间宽度的角度对比例差的样本量确定的问题进行研究,提出了在给定置信水平下,Wald置信区间,Score置信区间,似然比置信区间宽度控制在指定范围内的样本量估计公式。模拟研究了在估计样本量下的置信区间的经验覆盖概率和经验覆盖宽度。模拟结果表明:1)相同参数设置下模型一下各种方法所需样本量通常大于模型二下对应方法所需的样本量;2)在两种模型下,在估计的样本量下,置信区间的经验覆盖概率接近给定的置信水平且经验覆盖宽度接近设定的宽度,因而推荐在实际应用中使用。最后,通过疟疾数据的分析验证本文提出的方法的有效性。