论文部分内容阅读
在不同的时空条件下,如不同的组织或发育阶段,基因呈现差异表达;这些基因表达水平的改变是基因行使其功能的主要方式。基因芯片、二代测序技术等一系列高通量技术的广泛应用,可以同时检测几万个基因在不同条件下的表达水平;这使得我们可以在基因组尺度,动态地了解基因的功能。在不同时空条件下,有些基因呈现模式化表达,如在某些条件富集表达,而在某些条件下不表达。这些模式化表达基因,即模式基因(pattern genes),往往与基因在生物过程中所扮演的角色紧密相关,是我们了解基因生理功能和细胞过程的切入点。当前有四类模式基因引起广泛关注,分别是特异基因(specific gene)、选择基因(selective gene)、管家基因(housekeeping gene)和抑制基因(repressed gene)。在前期的研究中,国内外已有多个课题组建立了基于高通量数据的特异基因和管家基因发现的数学分析方法,但多数缺乏可靠的定量衡量。因此,在本研究中,基于包括基因芯片、二代测序等高通量实验方法所测定的连续转录组数据,我们开展了定量发现与评估模式基因的方法学研究。我们设计了特异性系数(Specificity Measure, SPM)、总贡献系数(Contribution Measure, CTM)、分散系数(Dispersion Measure, DPM)和抑制系数(Repression Measure, RPM)四个统计参数:通过它们的组合,实现对四种模式基因的定量描述和发现。基于模式基因量化评估方法,我们搭建了一个全面的模式基因分析平台。这包括一个模式基因在线服务器PaGeFinder (http://bioinf.xmu.edu.cn/PaGeFinder/)和一个模式基因数据库PaGenBase (http://bioinf.xmu.edu.cn/PaGenBase/)。 PaGeFinder能帮助用户在远程提交连续转录组数据,交互式地分析和发现模式基因。PaGenBase收集了143个公共的连续转录组数据集以及文献数据,包括11个物种,119,538个基因,1,062个样本和1,145,277个基因表达谱;从中发现了906,599个模式基因。模式基因分析平台可以帮助全局以及动态地了解基因功能,辅助发现潜在的生物标志物、治疗靶点以及分子实验的参照基因等,从而加快生物医学研究的进程。此外,我们也以多组人类连续组织转录组为研究对象,开展了模式基因与组织功能之间的关联研究。在该研究中,我们整合并分析了PaGenBase的人类组织模式基因,从功能、组织和发育等多个层面探索了人类组织的生理学特征。我们发现,组织特异基因和管家基因在各方面的功能富集是有所差异的;各个组织具有特异性,而组织之间具有关联性和共性。通过疾病/化合物与组织的关联研究,我们发现了一些疾病/化合物是具有组织选择性的。我们的研究将帮助人们更加深入地了解人体组织的功能,并为疾病的发生机制以及治疗提供新的思路。