论文部分内容阅读
鉴别不同生物学条件下的差异表达基因(DEG)是基因芯片的一个重要应用领域。实验结果重复性差是基因芯片研究中遇到的主要问题之一。样本容量(芯片重复数量)小是造成这种状况的重要原因。将不同来源的芯片实验数据或结果进行统合分析是解决这一难题的有效途径。本研究在三方面对基因芯片数据统合分析的方法进行了拓展:1)将目前非常流行的芯片分析软件SAM应用于统合分析;2)对相反生理过程的芯片数据进行统合分析;3)对多个相关生理过程的无重复芯片实验数据进行统合分析。用实际的芯片实验数据对这些拓展的可行性进行了检验。主要结果如下:
1.第一项研究的实例包含4个不同来源的拟南芥冷胁迫试验(4℃处理24小时)的芯片数据。对4个试验单独分析的结果表明,各个试验中检测到的DEG数量和列表差异很大。在总共大约13000个被检基因中,能够同时被4个试验检测到的上、下调基因分别只有317和132个。而利用SAM软件进行统合分析则分别检测到3134个上调基因和2983个下调基因。大多数(>80%)同时在2个以上试验中检测到的差异表达基因都能够被统合分析检测到。GO分析和启动子区调控元件分析证明,统合分析检测到的基因是与冷害胁迫相关的。这些结果表明,SAM应用于统合分析是可行的。
2.第二项研究的实例包含一套干旱胁迫和一套复水处理的拟南芥芯片数据,其中干旱和复水试验分别有4张和2张芯片,含24132个基因。同时用SAM和一个统合分析专门软件RankProd进行分析,二者对干旱试验数据的单独分析分别检测到1860和1188个DEG。考虑到干旱和复水是两个相反的生理过程,故将复水数据乘以(-1),与干旱数据合并进行统合分析,两个软件分别检测到2306和1978个DEG。比较发现,绝大多数从干旱数据单独分析检测到的DEG都能被统合分析检测到。GO分析和启动子区调控元件分析表明,统合分析得到的DEG确实与干旱胁迫有关。这些结果说明,将两个相反生理过程的芯片数据进行统合分析是可行的,能够比独立分析检测到更多、更可靠的DEG。SAM具有比RankProd更高的统计功效。
3.第三项研究的实例包含6个不同的稻瘟菌附着胞诱发试验的芯片数据(包含10120个基因)。由于每个试验都只有1张芯片,因此都无法单独进行统计分析,只能以2倍变化为标准来判断DEG。比较结果表明,同时被6个试验单独分析检测到的差异表达基因只有67个。用SAM软件对6个试验的数据进行统合分析,结果分别检测到485个上调基因和457个下调基因。GO分析表明,这些DEG是与附着胞发育有关的,与其他学者的研究结果相吻合。这些结果说明,相关生理过程的芯片数据的统合分析是可行的。
总之,实际应用表明,本研究对统合分析方法的三个方面的拓展都是可行的,为大量芯片数据的再分析提供了有价值的思路。