论文部分内容阅读
目的:探讨多水平logistic模型的基本理论及其在流行病学调查数据上的应用,旨在研究多水平logistic模型在实际应用过程中的方法学问题,为以后层次结构数据的有效分析提供参考。方法:在流行病学中常常存在层次结构数据,这种数据的特性为组群间差异较大,而组群内的成员间趋向于一致,即呈现一定的聚集性。这时,传统模型中数据间关于相互独立和方差齐的假定有可能不成立。多水平logistic模型在处理结构数据时考虑到了数据的层次性和聚集性,其基本思想是将总残差分解到相应的各个水平,其中高水平单位之间的变异表示组间变异,低水平单位间的变异表示个体间差异,将各水平残差表示为某些变量的函数,从而可分析其影响因素及变化趋势。多水平logistic模型与一般logistic回归模型的区别是:前者可以很好地处理存在组内聚集性的数据,可同时测量个体水平变异和组水平变异,可同时考虑固定效应和随机效应,还可研究场景变量对于组群单位的影响,而这些都是后者不能分析和解决的。本研究的主要内容包括多水平logistic模型理论的基本原理与方法、实例拟合过程(包括深圳市社区居民健康状况调查和广州市居民吸烟情况调查数据)、分析步骤、方法比较及结果解释等。本研究的数据预处理采用SAS9.2软件,多水平模型分析采用MLwiN和SAS9.2软件,数据缺失值采用SAS9.2的MI过程进行处理。结果:实例应用表明多水平模型在处理层次结构数据时,能够解决其有数据层次性、聚集性的问题,并且能够根据专业知识和实际情况将解释变量处理为固定效应或者随机效应,从而能够得到更丰富,更全面的结果。将多水平模型与筛选变量后的logitistic回归模型进行比较,前者的标准误比后者更小,统计效果更显著,且对于结果比后者有更合理的解释性。将缺失值进行多元填补后,能够得到比原始数据更可靠的结果。结论:多水平logistic模型理论在处理二分类层次结构数据时,提供了比传统模型更接近于客观情况的丰富信息。一般logistic回归模型简单易行,但只能研究个体层面的信息和其固定效应,无法分析组群方面信息和哪些因素对结局变量的变异程度有影响,而且当数据存在聚集性时会出现偏误,并且对于结果不能给出合理的解释;多水平logistic模型充分考虑了数据间的相关性问题,可考虑层次信息,并且能够同时研究个体变异和组间变异,能够分析固体效应和随机效应,对研究因素可做出准确的估计和假设检验。但是,多水平模型也有一定的局限性,如多水平模型要求低级水平和高级水平的残差方差服从正态分布或多元正态分布,参数估计较复杂,等等。另外,有层次结构的数据不一定需要做多水平模型分析,首先要看其组内相关性的大小,即是否存在组内聚集性,如果不存在数据聚集性,则用一般统计模型就可以了。在实际应用中,要结合专业知识和数据特征来选择合适的统计方法。忽略层次结构数据的组群效应,将会以损失资料信息的完整性为代价,使统计结果失效,并有可能得出错误的结论。因此,在有层次结构的流行病学调查数据中,多水平logistic模型是一个很好的选择,随着多水平logistic模型理论的完善和成熟,多水平logistic模型在流行病学领域中将会有更大的优势和更广阔的应用前景。