论文部分内容阅读
阐明所有基因的功能是水稻生物学研究的最终目标,然而水稻基因的功能鉴定研究却进展缓慢,尽管水稻已经体现出了作为遗传学研究模式生物的重要性。本篇博士论文主要开发了两个水稻生物信息学数据库来促进水稻中的基因功能鉴定:水稻芯片数据库(Rice Oligo Array Database,ROAD)和水稻系统基因组数据库(Rice Phylogenomic Database)。水稻芯片数据库可以提供水稻所有基因的基因表达谱和共表达关系;水稻系统基因组数据库可以在系统发育树的环境中整合分析多种基因组数据来研究基因家族中的基因冗余,目前已覆盖了蛋白激酶(Rice Kinase Database, RKD)和糖基转移酶(Rice GT Database, RGTD)基因家族。基于ROAD和RGTD数据库,鉴定出33个水稻特异的并且在地上营养组织高表达的GT基因,这些基因可作为下一步水稻细胞壁相关功能验证的目标基因。论文共分四章。第一章综述了目前水稻和水稻基因组、水稻芯片、系统基因组学、细胞壁和糖基转移酶的研究进展。第二章介绍了水稻芯片数据库ROAD,整合了已经公开的来自6种不同芯片平台的1867张水稻芯片数据。ROAD具有用户友好的界面和多种图形化展示工具,可以使用户很容易的基于基因和探针ID来获取基因表达谱数据。M eta-analysis工具可以分析基因在不同组织和发育阶段的表达情况,因此可以对用户感兴趣的基因提供在何时何地表达的信息。共表达分析工具可以提供基因在常规、非生物胁迫和生物胁迫等条件下的共调节信息。功能分析工具包括GO和KO富集分析,可以在芯片数据产生的差异表达基因列表中鉴定出有意义的生物学功能。实例分析中应用meta-analysis工具分析了最近研究中鉴定的胚乳偏好基因,并且构建了相应的基因功能网络来解释水稻中的胚乳发育过程。作为一个公开的基因表达参考数据库,ROAD将能够促进水稻产量相关关键基因的功能发掘和新实验的设计。第三章开发了两个水稻系统基因组数据库,Rice Kinase Database (RKD)和Rice GT Database (RGTD)。当研究大的基因家族时基因功能的确定非常困难,这是因为基因家族中基因功能的冗余限制了通过实验来验证单个基因功能的能力。通过RKD和RGTD,包括突变体信息和基因表达数据在内的多种功能基因组数据可以在一种系统发育树的环境中展示出来,有利于基因家族之间和之内的比较分析。这种展示方式(系统基因组学)至少可以在一定程度上帮助生物学家解决大基因家族研究中基因功能冗余的限制。目前为止已有超过1000张的芯片数据整合进RKD和RGTD中,并且有超过250条蛋白-蛋白互作信息整合进RKD中。为了展示如何使用这两个数据库,本章以RKD为例介绍了水稻系统基因组数据库在水稻蛋白激酶基因家族中单个基因功能鉴定方面的两个应用:(ⅰ)多种环境胁迫下共表达的有丝分裂原相关蛋白激酶信号通路(MAPK-MAPKK-MAPKKK)的鉴定;(ⅱ)整合表达谱和蛋白-蛋白互作鉴定光诱导蛋白激酶的五个功能互作物。第四章展示了如何结合ROAD和RGTD数据库鉴定出33个水稻特异的并且在地上营养组织高表达的GT基因。GT基因对植物细胞壁的合成非常重要,并且具有其他多种生物学功能。基于CAZy数据库和序列相似性分析,在RGTD数据库中鉴定出609个水稻GT基因位点,对应于769个转录物。基于ROAD数据库的基因表达谱分析表明大部分GT基因(-80%)在水稻中是表达的。使用Inparanoid直系同源物分析工具扫描已经完成测序的4种双子叶植物基因组(拟南芥、白杨、蒺藜苜蓿、蓖麻)鉴定出282个水稻特异的GT基因。综合表达谱和直系同源物分析鉴定出33个水稻特异的并且在地上营养组织高表达的GT基因(45个转录物)。结合文献分析,其中的21个基因可作为下一步水稻细胞壁相关功能验证的目标基因。而其他12个基因的功能研究也许能够揭示水稻糖基转移酶在荷尔蒙和蛋白质代谢方面的作用。