遗传流行病学纵向分析中的若干统计问题:数据分析与降维

来源 :复旦大学 | 被引量 : 1次 | 上传用户:jtyz888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着研究的深入,纵向研究在遗传流行病学研究中的地位越来越重要。基于纵向研究设计的数据分析,以及具有纵向特征的数据分析中,面临更加复杂的问题,亟需相应的应用统计学理论和方法的发展。本研究针对遗传流行病学纵向分析中的缺失数据、生存偏倚以及高维数据降维与分析等问题,结合具体研究课题,试图从应用统计学的角度,寻找、改进现有方法或者发展新的方法予以解决。(一)纵向分析中的缺失数据问题:缺失数据的问题,几乎是每项研究都会面临的问题。而对于不同的研究,对缺失数据的处理方法都要慎重考虑。在本论文第二章中,以新生儿出生后一周内胆红素测量数据为例,我们探讨了纵向研究中的缺失数据插补问题。新生儿出生后一周内胆红素测量数据除了存在缺失数据的问题,还存在另外一个重要问题——光疗干预效应。这两个问题的出现给新生儿出生后一周内胆红素测量数据的后续分析带来困难,是必须解决的问题。本研究应用混合模型解决新生儿出生后一周内胆红素测量数据的缺失数据插补和光疗效应校正问题。结合模型纳入参数选择、常规模型选择标准以及本研究自定义的拟合统计量(T1o2),我们选择最佳的混合模型对新生儿出生后一周内胆红素测量数据进行缺失数据插补和光疗效应校正。经过缺失数据插补和光疗效应校正之后,新生儿出生后一周内胆红素测量数据的变化趋势以及百分位数图与目前国际以及国内的研究结果非常接近。随着科学研究的深入开展,科学知识的普及,观察性研究会越来越多的面临缺失数据或不可避免的人为干预等类似问题。我们希望本研究可以为其他纵向研究中可能碰到的相关问题提供解决思路和方法。(二)生存偏倚问题:生存偏倚问题本身就是一个与时间有关的问题。近年来,对生存偏倚问题的关注开始增多,但是目前还没有很好的方法可以进一步推广和应用。在第三章中,我们继续探讨了在数据分析阶段评估和检验生存偏倚对研究结果影响的方法。在假设其他因素对研究的影响已经均衡掉,只考虑研究因素对应的死亡率以及自然死亡率的情形下,通过理论研究群体与实际研究群体之间的关联,我们找到了从理论研究群体随机抽样获得的样本数据与从实际研究群体随机抽样获得的样本数据之间的关系。以病例对照研究设计对应的统计量比数比(OR)为例,我们构造了利用实际病例对照研究数据以及相应的比数比(ORE)对理论比数比(ORT)进行估计以及假设检验的方法。进一步地,将该方法应用于一项UGT1A1基因变异与冠状动脉性心脏病的关联分析研究,评估生存偏倚对UGT1A1基因变异与冠状动脉性心脏病的关联分析结果的影响。生存偏倚问题是普遍存在的。本论文提出的理论研究群体与实际研究群体的理念可以继续推广。对于其他研究设计,如队列研究设计等,生存偏倚对其他的统计量或统计分析方法的影响,需要进一步探索和研究。(三) 纵向研究中的高维数据降维与分析问题:高维数据的统计分析方法已经比较成熟。然而,基于纵向研究的高维数据的统计分析方法目前并不多见。在本论文中,我们探讨了时间维度上单变量高维数据与基于纵向研究设计的多变量高维数据的降维与分析方法。本论文在第四章探讨了时间维度上单变量高维数据的降维与分析方法。蛋白时间飞行质谱数据作为一个单变量在时间维度上的高维数据,不同时间点上的蛋白质表达之间具有自相关性。我们构建了一种基于高维数据降维和特征提取的新方法用于基于蛋白时间飞行质谱数据的肺癌诊断。本研究提出的方法不但考虑了蛋白质表达在时间上的相关性,而且根据研究目标的需要筛选对肺癌诊断有贡献的特征和模型,与基于峰值筛选的传统分析方法相比效果更好。该方法作为一种单变量高维数据的分类判别方法,可以推广应用于其他高通量数据或高维数据的数据分析中。在本论文的第五章和第六章,我们探讨了基于纵向研究设计的多变量高维数据降维与分析方法。本研究的高原习服纵向研究数据包含在三个时间点上对23项生理性指标的测量数据。在该数据中,测量指标不仅在时间维度上具有自相关性,而且在测量指标之间也存在不同程度的相关性。高原习服纵向研究数据的这个特点,促使我们思考在数据分析阶段寻找合理的分析方法更好的阐释高原习服一系列生理性调节以及这些调节与流行病学因素以及遗传因素的关系。在分析方法的选择上,由于该数据包含三个时间点的测量数据,可以采用基于重复测量数据的增加量的分析方法对数据进行分析。我们选择利用基于纵向研究设计的单变量分析方法——混合模型,以及基于重复测量数据增加量的分析方法——偏最小二乘路径模型,探讨流行病因素以及遗传因素与高原习服不同时期生理性指标调节之间的关系。研究结果显示,混合模型与偏最小二乘路径模型的分析结果对应性很好。对于流行病学因素以及遗传因素与高原习服生理性调节过程的关系需要更多的专业解释和证据支持。本论文通过对遗传流行病学纵向分析中遇到的上述问题的统计分析方法研究,探讨了应用统计学在遗传流行病学领域的应用和发展。本研究希望通过对以上问题的统计分析方法,可以为后续的纵向研究提供借鉴。在研究课题的各个环节(研究设计、样本收集、数据产生以及数据分析等),制定更好的规范,避免或者减轻这些问题对研究的影响。更重要的,希望本研究的研究思路和方法,可以为解决其他遗传流行病学研究中,尤其是纵向研究中出现的问题,提供指导和方法。
其他文献
研究背景及目的糖尿病肾病(diabetic nephropathy,DN)作为糖尿病的严重并发症,已经成为导致终末期肾病(end-stage renal disease,ESRD)的主要病因之一。据报道,在发达国家,糖
在人体的组织和器官中,转甲状腺素蛋白(Transthyretin,TTR)由于基因突变或环境因素,四聚体结构稳定性下降,解离成单体,进而聚集形成沉积物,引发多种淀粉样疾病。包括家族性淀
《南河黄运湖河蓄泄机宜图说》为清官旧藏舆图,嘉庆皇帝曾御览并钤有朱文方印,图幅绘制精美、注记翔实,具有较高的史料价值。经研究,该图表现年代应为乾隆五十四年至乾隆六十年间
美国国会图书馆地理与地图部藏有一幅不具图题、绘者和绘制年代的彩绘本黄河图长卷,因其主要描绘江南境内黄河的堤防情形,应当命名为《江南黄河堤工图》.经考证此图系江南河
在肉制品的生产、加工乃至消费过程中,其防腐保鲜一直深受重视,人们期望能使用安全、绿色并对人体完全无害的添加剂.乳酸链球菌素是由Lactococcus Lactic菌株产生的一种无毒副作
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
【正】 1980年第二届全国青年美展中罗中立的油画《父亲》(获第一名),震动了全国美术界,也深深扣住了青年人特别是大学生的心.父亲那布满皱纹、黝黑的脸,沁满汗珠、鼓着青筋
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
抓好党建是最大的政绩,是基层党组织义不容辞的责任。目前,基层党组织党的建设工作仍存在一些问题。文章提出,建立完备的党建工作体系包括科学的目标责任体系、系统的制度机