微阵列数据基因集统计分析方法研究及医学应用

被引量 : 4次 | 上传用户:emmagarden
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术是生物技术变革的核心,允许研究者同时监测成千上万个基因的表达水平,已广泛应用于医学研究。如何挖掘海量基因表达信息中的有用信息,并进行生物学专业解释是基因表达谱数据分析领域所面临的一个重要挑战。目前,针对海量基因表达数据不同学者和研究机构提供了各种统计分析方法和工具。本研究将这些方法大致划分为两大类:单基因分析(Single Gene Analysis,SGA)、基因集分析(Gene Set Analysis,GSA)。其目的都是为了能筛选出有差异表达的基因,以得到疾病的控制和预测。单基因分析不能有效地解释生物学特性,且没有考虑基因间的相关性,因此结论非常有限。自2003年Mootha等提出基因富集分析方法以来,微阵列数据基因集分析引起了统计学者与生物信息学者的广泛关注。然而,由于基因表达谱数据本身特有的多维、样本量小以及基因间复杂的相关性等特点,至今没有一套成熟的理论和公认有效的筛选差异表达基因集的方法。本硕士课题结合实际微阵列数据、利用计算机技术和蒙特卡罗模拟研究微阵列数据基因集的统计分析理论方法及其应用,主要内容包括基因集分析方法原假设的合理性、Ⅰ型错误的控制、筛选差异表达基因集(Different Expression Gene set,DEGs)的有效性等等。目前作了以下工作:1.简要介绍微阵列实验基本概念、基因集注释数据库和单基因分析方法。在此基础上广泛复习和评价国内外有关微阵列数据的基因集分析方法。按照基因集的定义、统计原假设框架与统计量理论分布的生成回顾和综述了基因表达谱富集分析方法。2.基因集分析原假设包括竞争性原假设(Q1)、自限性原假设(Q2)和混合型原假设(Q3)。更多的研究团体认为自限性原假设方法要好于基于竞争性原假设进行的统计推断,但究竟哪种原假设更合理目前尚无定论。为了探讨此问题,本研究通过模拟实验进行比较研究。结果表明,自限性原假设方法检验效能较高,能识别出较多的差异表达基因集,但错误发现率较高;而竞争性原假设方法则是通过削弱其检验效能来达到较高的准确性;混合型原假设方法识别出的差异表达基因数及检验效能位于中间。我们建议进行微阵列数据分析时,如果条件允许可以采用不同原假设方法分析,否则采用混合型原假设,因为它克服了Q1、Q2方法的主要缺陷。3.由于基因集统计量的概率密度函数未知,故一般采用重排列或有放回抽样方法得到其理论分布。通常会认为重排列效果优于反复抽样,但是我们通过模拟实验发现两种效果基本一致,ROC曲线分析结果显示有放回抽样方法得到的曲线下面积稍大于重排列方法,说明同等条件下自助法抽样略优于样本重排列。4.假定基因间相互独立的前提下,借助SAS 9.13模拟产生数据集,比较不同基因集方法筛选差异表达基因集的有效性。结果显示Efron’s GSA方法的特异度及灵敏度均高于其它方法,而SAFE、Globaltest方法的检验效能仅次于Efron’s GSA方法。5.由于基因间往往存在复杂的相关性,在模拟数据中纳入这种相关关系。模拟实验分析结果发现Efron’s GSA对此类数据完全失去判别能力,几乎不能识别任何差异表达基因集。而PCOT2、Globaltest方法的效果却非常显著,能很好地识别模拟数据设定的差异表达基因集。6.采用不同基因集方法对两个著名的微阵列实验数据进行实例分析比较。结论进一步证实考虑了基因间相关性基因集方法PCOT2、Globaltest优于其他方法。而Globaltest方法能识别更多差异表达基因集,且模拟设定条件下错误发现率比PCOT2低19%。综合模拟及实例数据分析结果,我们更倾向于主张采用模型分析法,如Globaltest方法(构建logistic随机效应模型)进行基因集的分析。本课题的创新点主要包括以下几点:①针对不同原假设、理论分布生成方法对基因集分析结果的影响做了模拟比较研究。②将基因间相关性从不同角度纳入模拟实验数据,分别模拟每个基因集内部相关性,并基于此模拟数据进行基因集方法检验效能的比较。③模拟实验结果显示基于模型构建的基因集方法在数据分析时有效地考虑了基因间的相关性。④综合实例比较后提出Globaltest是较有效的微阵列数据分析方法。本课题主要是在微阵列数据基因集分析方法统计理论基础上,对其所涉及的一些方法及相关问题进行了探索和研究,并给出了我们认为比较有效的基因表达谱数据分析法。期望能够为陕西省科技计划攻关项目(微阵列数据差异表达信息挖掘及应用研究,编号:2008K04-02)的下一步研究工作打下良好基础,为基因表达微阵列数据的统计分析方法,尤其是基因集分析提供参考。
其他文献
以二氧化碳为主的温室气体的人为排放所造成的温室效应从而引起的全球气候变化及其可能产生的对地球和人类社会的影响已经引起国际社会的广泛关注。中国已经成为全球二氧化碳
真丝织物因其优良的服用性能而被人们喜爱,但其在紫外线照射、水分、氧气等外界环境的影响下会黄变脆化,影响其美观性和服用性。本论文选用无机紫外线屏蔽剂纳米TiO2及其与稀
城市商业中心区作为城市空间的重要组成部分,它已成为了每座城市经济、政治、文化的综合承载体。商业中心区休闲空间作为一种城市公共生活的方式、一种提高城市环境质量的重
人的存在,是身体与灵魂的双重存在。一个完整的人不只有心灵,还有身体;不只有大脑,还有双手;不只有理智,还有情感;不只有知识,还有行动。完整的人是德、智、体、美,知、情、
从技术上比较了单级喷油螺杆式空压机和双永磁变频两级螺杆空压机的运行原理、状况和特点,并实地检测了两种系统的能量消耗数据,从而证明双永磁变频两级螺杆空压机系统比单级
目前,地球森林资源的不断减少与人们对木材持续增长的喜爱与需求构成了一对难以调和的矛盾。木材干燥是改变木材的物理力学性能,保证木制品品质的关键环节之一。然而目前我国
随着我国电力网络规模的不断扩大,变电站的安全可靠运行至关重要,而电力设备的运行状态是决定其安全稳定运行的关键因素之一。传统的人工定期巡检已经不能满足设备安全运行的
随着遥感技术的蓬勃发展,光学遥感影像的分辨率逐步提高,对遥感影像上的关键目标进行检测与识别十分具有研究价值和现实意义。舰船是海上最重要的运输载体,也是军事活动中的重点打击目标,对其进行检测与识别在民用和军事领域都有巨大的应用前景。传统的海上舰船目标检测算法在复杂海洋背景下,受限于太阳光照、海面雾气、以及船舶自身的分布状况等海面上的不确定因素的影响,难以满足舰船智能检测的需要。基于深度学习的海上舰船
<正>我国于1998年颁布了《企业会计准则——现金流量表准则》,规定企业期末除了编制资产负债表、利润表外,还要以现金流量表来代替财务状况变动表。由于现金流量表是按照收付
在输变电系统中,输电线路的覆冰现象十分普遍。覆冰可以引起导线舞动、断线、倒塔及绝缘子闪络等重大事故,造成巨大的经济损失和一定的社会影响。因此,实时掌握输电线路的覆