综合分析组学数据以构建植物基因结构注释与功能解析平台

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:zibu365H356
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据,即超出传统关系数据库系统处理范畴的海量数据集。随着测序技术及相关生物学应用的发展,生命科学领域已经迎来了大数据的时代。如何对纷繁复杂的测序数据进行挖掘分析是摆在生物信息工作者面前的重要课题。本文从植物领域基因功能研究的需求出发,探讨如何利用现有的生物信息学方法,对实验科学家产生的多维组学数据进行剖析,并揭示数据背后隐藏的生物学奥秘。本文首先设计了一个大规模功能组学数据的标准化分析流程,用于发现植物新基因与新的可变剪切形式,接着搭建了一个针对植物领域的基因集富集分析在线工具,最后构建了一个综合的植物非编码RNA数据库分析平台,对生物信息学大规模组学数据挖掘的几个关键方向做了有益的尝试。当获得某一物种完整的全基因组序列后,对其总体水平的基因结构注释是一研究重点。随着测序技术的飞速进步,表观基因组学和转录组学的数据也快速积累。为了有效地利用这些组学数据进行基因结构注释,我构建了一套标准化的分析流程。首先利用染色体免疫共沉淀结合高通量测序(ChIP-seq)技术产生的数据,对植物的全基因组水平上两个表观遗传修饰(即H3K4me3和H3K27ac)进行研究,随后利用已知的功能基因组注释信息,对组蛋白修饰在基因结构上的分布特点进行探讨。同时利用转录组学的数据,确认了两个组蛋白修饰与基因表达之间的正相关性。对实验室自行产生的及公共平台的转录组学数据进行整合后,我对水稻日本晴和亚洲棉的新基因进行了预测,并利用组蛋白修饰在基因上的分布特点,对新基因的正负链进行判定。此外,对其中数个基因进行了qRT-PCR实验的验证。预测了新基因的位置后,对其具体基因结构、表达的组织特异性以及在染色体上的组蛋白修饰特点等一一进行了分析。最后还总结出了一套利用RNA-seq和ChIP-seq数据对亚洲棉进行可变剪切位点预测的规则。在基因结构注释的基础上,如何有效利用现有数据进行基因功能的全面解析,是接下来着重探讨的内容。现有的植物GO富集工具如EasyGO和AgriGO利用GO词条进行统计学分析,得到某些富集词条相关的特定基因,达到帮助生物学家缩小研究范围的目的。为了对一组或多组差异表达的基因进行更加深入细致的功能研究,我对GO词条进行拓展,引入了“基因集”这一概念,将包括基因本体论(GO)、植物本体论(PO)、基因家族、KEGG注释、PlantCyc注释等多达九个方面的基因集类别进行基因功能的描述。相比单个类别而言,基因集对基因组注释率有明显的提高,功能描述的精度和广度均有很大改善。利用GSEA算法,我开发了PlantGSEA (http://structuralbiology.cau.edu.cn/PlantGSEA)这一针对植物领域的基因集富集分析工具,该工具自发表以来应使用者的请求做了多次更新,并得到了科研工作者的广泛认同。另外,生物信息学二级数据库能提供单个DNA或蛋白序列的多方面的功能信息。表观遗传学的研究不但包括组蛋白修饰,还包括非编码序列的调控。在对植物非编码RNA的工作进行调研时,我发现现有数据库中涵盖植物多种类型非编码序列、多个层面功能信息的平台尚少。分析了已有平台的优劣势,利用获得的信息和掌握的技术,我构建了一个植物非编码序列相关的综合的数据库平台,并将其命名为PNRD (http://structuralbiology.cau.edu.cn/PNRD)。PNRD一共搜集了150种植物的11个不同类别,共25739条非编码RNA序列,46种植物的178138个miRNA和其靶基因的互作关系对,35个miRNA的表达图谱数据,以及整合了148篇文献的信息挖掘池。平台包括五大功能模块,即搜索模块、浏览模块、工具模块、下载页面以及帮助页面。本论文旨在构建植物基因结构与功能注释以及组学数据挖掘的平台体系,试图提供一些针对海量数据进行综合分析的解决方案。面对背景复杂、噪音巨大的高通量数据,如何加强实验科学家们的洞察力继而发现数据背后隐藏的价值,是我们生物信息学工作者的使命。
其他文献
目的 研究妊娠合并神经内科疾病的临床特点、治疗方法及对胎儿影响。方法 对1990年1月至2005年5月收治的10例妊娠合并神经内科疾病患者的临床资料进行回顾性分析。结果 妊娠
现今市场上有很多企业人事管理系统软件,但与部队管理相关的却少之又少,一方面是因为部队同地方企业的管理模式有差别,另一方面则是因为部队保密的工作要求,导致部队信息化水
通过分析我国15所民族高校的英文校名,发现存在的突出问题是如何翻译“民族”一词。该词虽为舶来之物,但其内涵在中国得到了丰富,成为一个极具中国文化、政治特色的词。因此,翻译
上世纪美国三分之二的重大创新来自小企业,小企业已成为美国经济的支柱。美国朝野认为,生生灭灭的小企业为国家注入了巨大的有效需求和增长力量,是市场活力的源泉,是维持自由
绮园位于浙江海盐武原镇绮园弄,是中国十大名园之一,也是浙江省保存最完整的人文私家园林之一,当代园林学家陈从周教授称赞“此园浙中数第一”。绮园占地约15亩,水面约3亩,树木遮
目的建立了盐酸左氧氟沙星片微生物限度的检测方法,并对方法学进行验证。方法采用低速离心结合薄膜过滤手段建立盐酸左氧氟沙星片的微生物限度检测方法。结果细菌计数及控制
最近读到张显清、林金树主编的《明代政治史》(上、下册,桂林:广西师范大学出版社, 2003年12月。32开,1119页),是一本与众不同的中国政治史和明史的专著,其特点如下: 一、结
会议
猪八戒形象和猪有密切关系;猪八戒为何那么贪色;猪的水神、雨神、云神和雷神角色。
肺癌是人类最常见的肿瘤之一。2009年世界卫生组织公布的数据表明,氡及其子体的辐射照射是非吸烟者罹患肺癌的主要原因。氡的主要危害是衰变时不断发射出的高能α粒子,吸入后
通过文献研究形成调查分析的初始量表及德尔菲法确立最终变量及量表,从信息传播和学习的理论视角,对泛在学习活动系统中学习者知识分享的动机与效果问题进行分析并得出研究结