基于SAM的基因表达谱数据分析方法研究及应用

来源 :第四军医大学 | 被引量 : 13次 | 上传用户:wangzhanglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术可同时获得大量基因的表达谱,已广泛应用于生物医学研究。基因表达谱数据具有高维和样本量小的特点,如何挖掘其中所蕴含的海量基因信息,深层次研究基因功能,已成为微阵列技术发展和应用的瓶颈。目前,基因表达谱数据分析方法的研究已成为生物与医学统计学研究领域的重要任务和热点问题。本文研究基于SAM的基因表达谱数据分析方法,围绕筛选差异表达基因、控制多重检验错误率和微阵列实验样本量估计中的若干生物统计学问题展开初步的研究。本研究主要作了以下工作:  1.简要介绍了微阵列实验设计方法、数据预处理和标准化方法。广泛复习和回顾了基因表达谱数据筛选差异表达基因的统计方法和控制多重检验错误率的方法。  2.根据微阵列研究统计设计和数据资料类型,分别引入解释变量为计量变量、分组变量为两分类或多分类变量,以及数据资料为重复测量设计和生存分析资料时,筛选差异表达基因的SAM方法;给出了permutation算法计算FDR的方法;介绍了用于呈现微阵列研究差异表达基因的统计图表。当微阵列研究分组变量为多分类变量时,针对多组间多重比较中效应量(标准均数差)计算问题进行了深入研究。  3.探讨了pFDR的Bayes解释和q值的解释,给出了固定拒绝域估计pFDR、FDR和q值的算法;对评价一组假设检验显著性的统计量尾强度(TS)进行研究,探讨了TS的专业解释,并给出了TS与FDR的关系。  4.假定power1?=FDRβ=,FNR=α,给出了一种简单的适用于多种设计类型的微阵列研究样本量估计方法。  5.采用模拟数据比较了SAM方法、Bonferroni校正法、BH法等6种基因表达谱数据筛选差异表达基因的方法,探讨了各种方法的筛选效果。结果发现:Bonferroni校正法、Sidak校正法、Hochberg法和成组t检验方法不适用于基因表达谱筛选差异表达基因的数据分析;SAM方法和BH法筛选差异表达基因数、假阳性数、FWER和FDR均相差不大,均筛选出较多的差异表达基因,且控制了多重检验错误率,适用于基因表达谱数据筛选差异表达基因的数据分析。  6.对4种常见基因表达谱数据进行实例研究,筛选组间差异表达基因,计算了FDR、q值、TS等统计量,并给出专业解释;采用某微阵列预实验数据,按照本文给出的样本量估计方法,估计微阵列研究所需样本量。
其他文献
当今世界,大数据、云计算、人工智能等新一代信息技术与会计行业深度融合,推动着财务共享服务中心智能化水平和业务处理效率不断提升.中美贸易摩擦,全球不稳定、不确定因素显