论文部分内容阅读
样本含量估计一直是医学科研设计中的一道难题。据统计,在我国有高达90%以上的医学文献资料中未使用或者用错样本含量估计方法。大部分科研人员还没有认识清楚样本含量估计的重要性,更没有系统掌握其估计方法,从而所开展研究的科学性和有效性受到质疑。研究者在确定样本含量估计方法的过程中,会遇到各种各样的困难,诸如科研设计类型、统计分析方法、比较类型、精确度要求以及所能承受的时间、经费成本限制等等。即使这些问题都已确认完毕,接下来如何正确估计样本含量仍需要经过一番认真思考和仔细研究。采用专业的样本含量估计软件来计算样本含量在科研工作中日趋流行。本课题将引导科研工作者高效、准确地找到适合自己科研目的的样本含量估计方法,再结合具体例子展示如何在专业软件上得以实现,以提高科研效率,使结果更加严谨科学、真实可靠。本研究涉及到的样本含量估计方法有:(1)估计总体均值时样本含量估计;(2)估计总体率时样本含量估计;(3)单组、配对或交叉设计均值比较时样本含量估计;(4)成组设计均值差异性检验时样本含量估计;(5)成组设计均值等效性检验时样本含量估计;(6)成组设计均值非劣效/优效性检验时样本含量估计;(7)单因素多水平设计定量资料方差分析时样本含量估计;(8)单组设计率的比较时样本含量估计;(9)成组设计率的差异性检验时样本含量估计;(10)成组设计率的等效性检验时样本含量估计;(11)成组设计率的非劣效/优效性检验时样本含量估计;(12)配对设计四格表资料统计分析时样本含量估计;(13)队列研究/病例-对照研究时样本含量估计;(14)相关分析时样本含量估计;(15)定量资料重复测量设计时样本含量估计;(16)定量资料析因设计时样本含量估计;(17)生存分析中样本含量估计。第3章列举了多种常见设计类型下对应的样本含量估计方法。从介绍基本的公式入手,再分别基于两种软件结合具体实例来一一实现。第4、5、6章中分别介绍了定量资料重复测量设计、析因设计、生存分析等几种比较复杂的多因素设计下的样本含量估计方法,并在第7章中对同一个问题不同解决方法间做了比较研究。在估计定量资料重复测量设计的样本含量时,分成只考虑主效应和同时考虑所有因素及其交互作用两方面来展开论述。只考虑主效应估计样本含量时,首先介绍了Bloch’s公式和Liu K.J’s公式,从比较中发现Bloch’s公式假设的前提条件实际中很难满足,容易低估样本量。Liu K.J’s公式需要提供的参数如条件相关系数、重复测量误差等都不容易获得,实际操作较困难。第二种方法为采用PASS软件计算,PASS不仅提供多种协方差类型来应对各种情况,还能灵活切换各种参数值和条件,在分析参数不同取值的检验效能时能准确、直观地展现各个变量间的变化趋势及相互关系。当既要考察主效应又要考察重复测量因素及交互作用时,PASS软件也提供了专业的解决方案,本文列举了需要注意的关键步骤,并通过实例加以展示。在估计定量资料析因设计的样本含量时,从预实验结果中获得所需的参数估计值是十分科学、有效的方法。本文介绍了SAS GLMPOWER过程和PASS软件两种估计的方法,它们背后的原理一样,但所需提供的参数稍有不同。GLMPOWER需要每个实验小组的均值估计值、PASS软件则需要提供因素合并后每个水平的均值估计值,两种情况对预实验结果进行初步处理后都可方便获取所需参数。生存分析中介绍了三种类型的样本含量估计方法,包括生存分析Log-rank检验、成组序贯设计和Cox回归时的样本含量估计方法。Log-rank检验中包含的样本含量估计方法主要有Freedman方法、Lachin-Foulkes方法和Lakatos方法。Freedman方法计算简单快捷,但它没有考虑生存资料的特殊性,是在基于风险比例保持不变、病人良好的依从性、生存时间满足指数分布等前提下提出的,并且忽略了时间因素和删失数据对结果造成的影响,导致样本含量估计结果偏差会较大,只适合粗略估计时使用。Lachin-Foulkes方法假设病人在时间段R内进入试验,接着随访一段时间直至到达总时间T为止,引入了删失率,也考虑时间因素的影响。但该方法设定的删失率、风险率是一个固定值,因此该方法并没有很好地拟合一个合理的生存过程。第三种方法为Lakatos法,它基于马尔可夫方法,并考虑了更多的不确定影响因素,该方法应用灵活,能较好地反映实际情况,是一种可行、有效的样本含量估计方法。生存资料成组序贯设计样本含量估计时,由于需要进行多次检验,引入了?消耗函数,但仅考虑了两组生存率计算样本量,因此该方法考虑因素比较简单,只适合粗略的估计。Cox回归样本含量估计时,对生存时间的分布特性没有要求,只要符合Cox比例风险假定即可,该方法不仅对单个影响因素进行研究,还可综合考虑其他协变量的影响。