论文部分内容阅读
随着研究的深入,纵向研究在遗传流行病学研究中的地位越来越重要。基于纵向研究设计的数据分析,以及具有纵向特征的数据分析中,面临更加复杂的问题,亟需相应的应用统计学理论和方法的发展。本研究针对遗传流行病学纵向分析中的缺失数据、生存偏倚以及高维数据降维与分析等问题,结合具体研究课题,试图从应用统计学的角度,寻找、改进现有方法或者发展新的方法予以解决。(一)纵向分析中的缺失数据问题:缺失数据的问题,几乎是每项研究都会面临的问题。而对于不同的研究,对缺失数据的处理方法都要慎重考虑。在本论文第二章中,以新生儿出生后一周内胆红素测量数据为例,我们探讨了纵向研究中的缺失数据插补问题。新生儿出生后一周内胆红素测量数据除了存在缺失数据的问题,还存在另外一个重要问题——光疗干预效应。这两个问题的出现给新生儿出生后一周内胆红素测量数据的后续分析带来困难,是必须解决的问题。本研究应用混合模型解决新生儿出生后一周内胆红素测量数据的缺失数据插补和光疗效应校正问题。结合模型纳入参数选择、常规模型选择标准以及本研究自定义的拟合统计量(T1o2),我们选择最佳的混合模型对新生儿出生后一周内胆红素测量数据进行缺失数据插补和光疗效应校正。经过缺失数据插补和光疗效应校正之后,新生儿出生后一周内胆红素测量数据的变化趋势以及百分位数图与目前国际以及国内的研究结果非常接近。随着科学研究的深入开展,科学知识的普及,观察性研究会越来越多的面临缺失数据或不可避免的人为干预等类似问题。我们希望本研究可以为其他纵向研究中可能碰到的相关问题提供解决思路和方法。(二)生存偏倚问题:生存偏倚问题本身就是一个与时间有关的问题。近年来,对生存偏倚问题的关注开始增多,但是目前还没有很好的方法可以进一步推广和应用。在第三章中,我们继续探讨了在数据分析阶段评估和检验生存偏倚对研究结果影响的方法。在假设其他因素对研究的影响已经均衡掉,只考虑研究因素对应的死亡率以及自然死亡率的情形下,通过理论研究群体与实际研究群体之间的关联,我们找到了从理论研究群体随机抽样获得的样本数据与从实际研究群体随机抽样获得的样本数据之间的关系。以病例对照研究设计对应的统计量比数比(OR)为例,我们构造了利用实际病例对照研究数据以及相应的比数比(ORE)对理论比数比(ORT)进行估计以及假设检验的方法。进一步地,将该方法应用于一项UGT1A1基因变异与冠状动脉性心脏病的关联分析研究,评估生存偏倚对UGT1A1基因变异与冠状动脉性心脏病的关联分析结果的影响。生存偏倚问题是普遍存在的。本论文提出的理论研究群体与实际研究群体的理念可以继续推广。对于其他研究设计,如队列研究设计等,生存偏倚对其他的统计量或统计分析方法的影响,需要进一步探索和研究。(三) 纵向研究中的高维数据降维与分析问题:高维数据的统计分析方法已经比较成熟。然而,基于纵向研究的高维数据的统计分析方法目前并不多见。在本论文中,我们探讨了时间维度上单变量高维数据与基于纵向研究设计的多变量高维数据的降维与分析方法。本论文在第四章探讨了时间维度上单变量高维数据的降维与分析方法。蛋白时间飞行质谱数据作为一个单变量在时间维度上的高维数据,不同时间点上的蛋白质表达之间具有自相关性。我们构建了一种基于高维数据降维和特征提取的新方法用于基于蛋白时间飞行质谱数据的肺癌诊断。本研究提出的方法不但考虑了蛋白质表达在时间上的相关性,而且根据研究目标的需要筛选对肺癌诊断有贡献的特征和模型,与基于峰值筛选的传统分析方法相比效果更好。该方法作为一种单变量高维数据的分类判别方法,可以推广应用于其他高通量数据或高维数据的数据分析中。在本论文的第五章和第六章,我们探讨了基于纵向研究设计的多变量高维数据降维与分析方法。本研究的高原习服纵向研究数据包含在三个时间点上对23项生理性指标的测量数据。在该数据中,测量指标不仅在时间维度上具有自相关性,而且在测量指标之间也存在不同程度的相关性。高原习服纵向研究数据的这个特点,促使我们思考在数据分析阶段寻找合理的分析方法更好的阐释高原习服一系列生理性调节以及这些调节与流行病学因素以及遗传因素的关系。在分析方法的选择上,由于该数据包含三个时间点的测量数据,可以采用基于重复测量数据的增加量的分析方法对数据进行分析。我们选择利用基于纵向研究设计的单变量分析方法——混合模型,以及基于重复测量数据增加量的分析方法——偏最小二乘路径模型,探讨流行病因素以及遗传因素与高原习服不同时期生理性指标调节之间的关系。研究结果显示,混合模型与偏最小二乘路径模型的分析结果对应性很好。对于流行病学因素以及遗传因素与高原习服生理性调节过程的关系需要更多的专业解释和证据支持。本论文通过对遗传流行病学纵向分析中遇到的上述问题的统计分析方法研究,探讨了应用统计学在遗传流行病学领域的应用和发展。本研究希望通过对以上问题的统计分析方法,可以为后续的纵向研究提供借鉴。在研究课题的各个环节(研究设计、样本收集、数据产生以及数据分析等),制定更好的规范,避免或者减轻这些问题对研究的影响。更重要的,希望本研究的研究思路和方法,可以为解决其他遗传流行病学研究中,尤其是纵向研究中出现的问题,提供指导和方法。