论文部分内容阅读
[目的] 微阵列数据是指由基因芯片获得的基因表达数据。对基因表达数据的分析,其重要任务之一是筛选差异表达基因,即通过比较正常和疾病状态下基因转录及表达的差异,研究疾病的发生机理、进行疾病的早期诊断及治疗。对基因表达数据分析的主要困难是相对于给定的样品数目,基因的数量过于庞大,用传统的统计方法对“差异基因”进行鉴别会产生大量的假阳性结果。本项研究针对这一问题,在充分复习基因表达数据筛选的新方法及其研究进展文献的基础上,对多种差异基因筛选方法进行理论与实际应用的研究,并在此基础上试图给出新的统计分析方法。
[内容]①FC法、t检验、SAM法、稳健t检验、SAMROC法的原理、适用性及特点,同时选用一种基于随机森林的差异基因筛选方法作为对比;②FDR方法的原理、适用范围和估计的准确性;③基于小波变换理论的基因筛选方法;④差异基因筛选方法的软件实现。其中基于小波变换理论的基因筛选方法是本文提出的一种新方法,其主要思想是利用多尺度算法对聚类后的数据作适当的变换和分解,有效减少由随机波动引起的误差。
[方法]根据基因表达谱分子生物信息的特点,采用统计学和计算机相结合的技术,利用公开的生物信息数据库,选择具有典型意义的样本数据,通过对实际样本的分析,提取数据的分布及相关特征,建立相应的统计分析模型;同时用计算机模拟的方法,利用R和Matlab两种语言开发主要计算和模拟实验用的程序,针对不同类型的数据进行分析和评价,探索基因表达数据分析的新方法。
[结果]主要研究结果如下:
1.除FC法外其他方法对变量的分布类型均有较强的适应能力。在多数情况下SAM法和稳健,检验表现出了最优的筛选能力,SAMROC法则表现出更好的稳定性和较优的筛选能力;基于随机森林的差异基因筛选方法尽管能够同时考虑多个基因的相互作用,但由于受到大量无差异基因表达的随机干扰,筛选的效果不够稳定和理想,但是在两组间变异相差较大的情况下显示出较其他方法更优良的特性。
2.差异基因的假发现率FDR(pava FDR)估计的准确性与采用的筛选方法、无差异基因在所有基因中所占比例π<,0>的估计是否准确、分界阈值(“差异基因数目”)的选择以及真实的FDR值有一定的关系。模拟实验表明,根据样本估计出的FDR与真实FDR呈明显的线性关系,但变异较大。
3.通过模拟实验,初步确认了小波变换方法在差异基因筛选上的有效性,基于小波变换的SAM方法明显优于普通的SAM法。
[结论] SAM、稳健t检验和SAMROC三种方法可以有效地用于差异表达基因的筛选,但适用条件有所不同;FDR估计具有重要的实际意义,文中所用的估计方法有效而实用。由于基因表达具有一定的相关,利用基于小波变换的基因筛选方法,更易于得到有生物学意义的差异表达基因。