论文部分内容阅读
大数据,即超出传统关系数据库系统处理范畴的海量数据集。随着测序技术及相关生物学应用的发展,生命科学领域已经迎来了大数据的时代。如何对纷繁复杂的测序数据进行挖掘分析是摆在生物信息工作者面前的重要课题。本文从植物领域基因功能研究的需求出发,探讨如何利用现有的生物信息学方法,对实验科学家产生的多维组学数据进行剖析,并揭示数据背后隐藏的生物学奥秘。本文首先设计了一个大规模功能组学数据的标准化分析流程,用于发现植物新基因与新的可变剪切形式,接着搭建了一个针对植物领域的基因集富集分析在线工具,最后构建了一个综合的植物非编码RNA数据库分析平台,对生物信息学大规模组学数据挖掘的几个关键方向做了有益的尝试。当获得某一物种完整的全基因组序列后,对其总体水平的基因结构注释是一研究重点。随着测序技术的飞速进步,表观基因组学和转录组学的数据也快速积累。为了有效地利用这些组学数据进行基因结构注释,我构建了一套标准化的分析流程。首先利用染色体免疫共沉淀结合高通量测序(ChIP-seq)技术产生的数据,对植物的全基因组水平上两个表观遗传修饰(即H3K4me3和H3K27ac)进行研究,随后利用已知的功能基因组注释信息,对组蛋白修饰在基因结构上的分布特点进行探讨。同时利用转录组学的数据,确认了两个组蛋白修饰与基因表达之间的正相关性。对实验室自行产生的及公共平台的转录组学数据进行整合后,我对水稻日本晴和亚洲棉的新基因进行了预测,并利用组蛋白修饰在基因上的分布特点,对新基因的正负链进行判定。此外,对其中数个基因进行了qRT-PCR实验的验证。预测了新基因的位置后,对其具体基因结构、表达的组织特异性以及在染色体上的组蛋白修饰特点等一一进行了分析。最后还总结出了一套利用RNA-seq和ChIP-seq数据对亚洲棉进行可变剪切位点预测的规则。在基因结构注释的基础上,如何有效利用现有数据进行基因功能的全面解析,是接下来着重探讨的内容。现有的植物GO富集工具如EasyGO和AgriGO利用GO词条进行统计学分析,得到某些富集词条相关的特定基因,达到帮助生物学家缩小研究范围的目的。为了对一组或多组差异表达的基因进行更加深入细致的功能研究,我对GO词条进行拓展,引入了“基因集”这一概念,将包括基因本体论(GO)、植物本体论(PO)、基因家族、KEGG注释、PlantCyc注释等多达九个方面的基因集类别进行基因功能的描述。相比单个类别而言,基因集对基因组注释率有明显的提高,功能描述的精度和广度均有很大改善。利用GSEA算法,我开发了PlantGSEA (http://structuralbiology.cau.edu.cn/PlantGSEA)这一针对植物领域的基因集富集分析工具,该工具自发表以来应使用者的请求做了多次更新,并得到了科研工作者的广泛认同。另外,生物信息学二级数据库能提供单个DNA或蛋白序列的多方面的功能信息。表观遗传学的研究不但包括组蛋白修饰,还包括非编码序列的调控。在对植物非编码RNA的工作进行调研时,我发现现有数据库中涵盖植物多种类型非编码序列、多个层面功能信息的平台尚少。分析了已有平台的优劣势,利用获得的信息和掌握的技术,我构建了一个植物非编码序列相关的综合的数据库平台,并将其命名为PNRD (http://structuralbiology.cau.edu.cn/PNRD)。PNRD一共搜集了150种植物的11个不同类别,共25739条非编码RNA序列,46种植物的178138个miRNA和其靶基因的互作关系对,35个miRNA的表达图谱数据,以及整合了148篇文献的信息挖掘池。平台包括五大功能模块,即搜索模块、浏览模块、工具模块、下载页面以及帮助页面。本论文旨在构建植物基因结构与功能注释以及组学数据挖掘的平台体系,试图提供一些针对海量数据进行综合分析的解决方案。面对背景复杂、噪音巨大的高通量数据,如何加强实验科学家们的洞察力继而发现数据背后隐藏的价值,是我们生物信息学工作者的使命。