论文部分内容阅读
20世纪的最后十年中,一项重大的生物学技术问世,这就是生物芯片技术。生物芯片技术能同时并行地检测大量基因的表达水平,从而提供了研究蛋白质合成的高通量手段。现在生物芯片实验一般都在各物种全基因组水平上进行,由此产生的海量数据给芯片表达谱数据分析带来了巨大的挑战。如何从这些数据中找出基因之间的表达调控关系,揭示生物现象的内部分子机制,是目前生物信息学领域研究中的难点和热点。基因表达谱和生物功能之间存在密切的联系,在相同实验条件下表达变化相关的基因一般都有相似的功能或参与相同的细胞过程,而且被共同的转录因子所调控。因此,结合先验的生物知识已成为目前芯片表达谱数据分析的发展趋势。生物知识包括序列信息、蛋白质结构和生物功能等。生物知识可以给表达谱数据分析提供指导,从而减少传统纯数学表达谱分析方法的盲目性,得到更有意义的结果。结合生物知识的生物芯片表达谱数据分析还处于起步阶段,已有的研究针对各自的分析目的都取得了一定成果,但是这些研究方法都缺乏对信息的整合。基于此,我们提出了三种基于生物知识的生物芯片表达谱数据分析方法:基于Gene Ontology的聚类、改进的基因集合富集分析和功能模块分析,主要研究成果如下:(1)设计并实现了基于Gene Ontology的芯片表达谱数据的聚类分析方法。在这种聚类方法中,GO的树形结构被作为聚类的框架,待分析表达谱中的基因通过其对应的GO条目映射到GO树上。通过对GO树节点的逐层搜索,完成同时考虑表达模式相似性和功能相似性的基因聚类,并同时将聚类结果用GO条目做功能注释。通过两组公共数据的验证,我们证明了该聚类算法可以得到在表达模式一致性和注释精度上都令人满意的结果。而与当前平行软件GO-Cluster的比较则显示出该聚类方法在表达同质性和功能一致性上都有相当大的优势。(2)改进了表达谱数据分析中的基因集合富集分析算法。将基因集合中成员的表达相关性信息结合到原基因集合富集分析中,从成员基因的差异表达程度和表达相关度两个方面同时评价基因集合。与原分析结果的对比显示,改进后的结果不仅有更高的统计显著性,而且误发现率也明显降低,并且,改进的基因集合富集分析可以比原基因集合富集分析找出更多的显著差异表达基因集合,其中有一部分是与样本类型密切相关但原基因集合富集分析无法检验得到的。(3)用功能模块法分析了在多种实验条件下小鼠全基因组的表达谱数据,初步验证了雌激素在缺血再灌注情况下对哺乳动物心脏的保护作用,并找到了一些与心脏保护作用机制相关的通路。在这个实验中共有三个因素:性别,是否基因敲除(P-450芳香酶基因),不同实验处理(无处理、缺血处理,缺血再灌注处理)。KEGG数据库中的通路被作为研究的功能模块,通过各种统计检验方法,找出了在不同因素组合下,表现出相同和不同表达特性的功能模块。基于生物知识的生物芯片表达谱数据分析可以得到更有生物意义的结果,然而,这些分析方法对生物知识的完备性有一定依赖,我们相信,随着生物知识的不断完善,基于生物知识的生物芯片表达谱数据分析将得到更好的应用。