论文部分内容阅读
微阵列技术是生物技术变革的核心,允许研究者同时监测成千上万个基因的表达水平,已广泛应用于医学研究。如何挖掘海量基因表达信息中的有用信息,并进行生物学专业解释是基因表达谱数据分析领域所面临的一个重要挑战。目前,针对海量基因表达数据不同学者和研究机构提供了各种统计分析方法和工具。本研究将这些方法大致划分为两大类:单基因分析(Single Gene Analysis,SGA)、基因集分析(Gene Set Analysis,GSA)。其目的都是为了能筛选出有差异表达的基因,以得到疾病的控制和预测。单基因分析不能有效地解释生物学特性,且没有考虑基因间的相关性,因此结论非常有限。自2003年Mootha等提出基因富集分析方法以来,微阵列数据基因集分析引起了统计学者与生物信息学者的广泛关注。然而,由于基因表达谱数据本身特有的多维、样本量小以及基因间复杂的相关性等特点,至今没有一套成熟的理论和公认有效的筛选差异表达基因集的方法。本硕士课题结合实际微阵列数据、利用计算机技术和蒙特卡罗模拟研究微阵列数据基因集的统计分析理论方法及其应用,主要内容包括基因集分析方法原假设的合理性、Ⅰ型错误的控制、筛选差异表达基因集(Different Expression Gene set,DEGs)的有效性等等。目前作了以下工作:1.简要介绍微阵列实验基本概念、基因集注释数据库和单基因分析方法。在此基础上广泛复习和评价国内外有关微阵列数据的基因集分析方法。按照基因集的定义、统计原假设框架与统计量理论分布的生成回顾和综述了基因表达谱富集分析方法。2.基因集分析原假设包括竞争性原假设(Q1)、自限性原假设(Q2)和混合型原假设(Q3)。更多的研究团体认为自限性原假设方法要好于基于竞争性原假设进行的统计推断,但究竟哪种原假设更合理目前尚无定论。为了探讨此问题,本研究通过模拟实验进行比较研究。结果表明,自限性原假设方法检验效能较高,能识别出较多的差异表达基因集,但错误发现率较高;而竞争性原假设方法则是通过削弱其检验效能来达到较高的准确性;混合型原假设方法识别出的差异表达基因数及检验效能位于中间。我们建议进行微阵列数据分析时,如果条件允许可以采用不同原假设方法分析,否则采用混合型原假设,因为它克服了Q1、Q2方法的主要缺陷。3.由于基因集统计量的概率密度函数未知,故一般采用重排列或有放回抽样方法得到其理论分布。通常会认为重排列效果优于反复抽样,但是我们通过模拟实验发现两种效果基本一致,ROC曲线分析结果显示有放回抽样方法得到的曲线下面积稍大于重排列方法,说明同等条件下自助法抽样略优于样本重排列。4.假定基因间相互独立的前提下,借助SAS 9.13模拟产生数据集,比较不同基因集方法筛选差异表达基因集的有效性。结果显示Efron’s GSA方法的特异度及灵敏度均高于其它方法,而SAFE、Globaltest方法的检验效能仅次于Efron’s GSA方法。5.由于基因间往往存在复杂的相关性,在模拟数据中纳入这种相关关系。模拟实验分析结果发现Efron’s GSA对此类数据完全失去判别能力,几乎不能识别任何差异表达基因集。而PCOT2、Globaltest方法的效果却非常显著,能很好地识别模拟数据设定的差异表达基因集。6.采用不同基因集方法对两个著名的微阵列实验数据进行实例分析比较。结论进一步证实考虑了基因间相关性基因集方法PCOT2、Globaltest优于其他方法。而Globaltest方法能识别更多差异表达基因集,且模拟设定条件下错误发现率比PCOT2低19%。综合模拟及实例数据分析结果,我们更倾向于主张采用模型分析法,如Globaltest方法(构建logistic随机效应模型)进行基因集的分析。本课题的创新点主要包括以下几点:①针对不同原假设、理论分布生成方法对基因集分析结果的影响做了模拟比较研究。②将基因间相关性从不同角度纳入模拟实验数据,分别模拟每个基因集内部相关性,并基于此模拟数据进行基因集方法检验效能的比较。③模拟实验结果显示基于模型构建的基因集方法在数据分析时有效地考虑了基因间的相关性。④综合实例比较后提出Globaltest是较有效的微阵列数据分析方法。本课题主要是在微阵列数据基因集分析方法统计理论基础上,对其所涉及的一些方法及相关问题进行了探索和研究,并给出了我们认为比较有效的基因表达谱数据分析法。期望能够为陕西省科技计划攻关项目(微阵列数据差异表达信息挖掘及应用研究,编号:2008K04-02)的下一步研究工作打下良好基础,为基因表达微阵列数据的统计分析方法,尤其是基因集分析提供参考。