基于DNA序列的多种植物组蛋白修饰强度的预测及其调控语法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:hnazlz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组蛋白修饰在动态调控植物生长发育及其它关键生物学过程中扮演着至关重要的角色。目前,基于传统分子生物学结合新一代高通量测序手段,研究人员对植物中组蛋白修饰的生物学功能和分子机制已有较为透彻的认识。然而,获取大规模的组蛋白修饰数据仍然过于昂贵和费时,同时,植物中建立和维持DNA位点特异性组蛋白修饰的具体调控语法仍不清楚。得益于表观遗传学和计算生物学技术和方法的飞速进步,在哺乳动物中研究人员通过机器学习基于DNA序列准确地预测了组蛋白修饰位点,在人和小鼠中全面鉴定了组蛋白修饰的DNA序列调控语法。但动植物之间的基因表达和组蛋白表观修饰的调控机制在分子水平存在明显差异,植物可能进化出一套与动物差异较大的表观遗传调控语法。因此,通过在基因组DNA序列水平对组蛋白修饰进行分析,并在此基础之上识别和鉴定植物组蛋白修饰的顺式调控元件,对于理解植物基因表达模式的调控机制具有重要意义。本研究以拟南芥、水稻和玉米作为被子植物代表种,通过结合表观基因组学和机器学习方法,系统地鉴定了植物中组蛋白修饰的调控语法,并且在此基础上对不同组蛋白修饰的语法展开了分析和比较。具体的研究结果如下:(1)全面、系统地整理了拟南芥(叶片、根、幼苗组织)、水稻(叶片、幼苗组织)和玉米(叶片、根、根尖组织)中已发表的组蛋白修饰共54个Ch IP-seq数据集,并进行统一的标准化的处理,准确识别和定量了组蛋白修饰位点和强度。基于DNA的k-mer特征,构建了三种物种不同组织组蛋白修饰的简单线性模型以及随机森林机器学习模型,结果显示随机森林模型具有更好的预测效果(平均PCC>0.9)。分别对原始信号值置换、噪音添加以及DNA序列洗牌的模拟数据进行建模分析,进一步证明存在与组蛋白修饰水平相关的内在的DNA序列特征。同时,修饰位点内不同区域DNA特征构建的模型预测效果存在差异,表明了修饰位点内的序列调控信息含量分布不同。(2)为了进一步揭示出这些6-mers所对应的生物学调控机制,我们构建LASSO模型提取重要的6-mers,并在此基础之上分别鉴定出拟南芥叶片组织13种组蛋白修饰91到122个不同数目的DNA位置权重矩阵(de novo motifs)。通过与拟南芥中已知转录因子(TF)的motifs比较,发现14.7%的de novo motifs与已知的转录因子的基序高度相似。这一结果说明模型捕获到的转录因子可能直接或间接地招募与其相互作用的辅因子继而参与组蛋白修饰的调控,这与已知的文献报道相一致。更进一步的分析表明,仅用少数重要的motifs就可以对组蛋白修饰进行较好的拟合,这说明组蛋白修饰的调控语法是高度冗余的。通过对这些motifs的GC含量、所对应的TF家族、修饰位点内的分布分析,我们发现每种组蛋白修饰motifs可以分为GC或AT富集motifs、激活的mark之间相似的motifs、中心或边缘motifs等,既表现出其特异的模式,也有相似的特征。以H3K4me3为例,这些转录因子大部分富集于乙烯相关的通路中,特别地,部分转录因子与叶子的发育和形态建成有关。通过比较拟南芥叶片和根部H3K4me3修饰的差异区域,结果表明组蛋白特异修饰区域基因具有组织特异的功能,其富集的转录因子和对应的调控语法具有组织特异性。最后,群体遗传学分析表明,组蛋白修饰位点内这些motifs区域与motifs外的区域相比表现出更低的核苷酸多态性(π)和更高的Phylop得分,表明motifs结合区域相对保守,暗示其受到了较为强烈的负选择。综上所述,基于机器学习和表观基因组学,本研究对三种被子植物基因组DNA序列和组蛋白修饰的关系进行了系统地建模分析,结果表明DNA的序列特征能准确地预测组蛋白修饰强度;同时,本研究全面地鉴定出组织特异性组蛋白修饰的调控基序,为理解植物组蛋白修饰的DNA语法以及其识别和调控机制、基因组分布模式提供了新的见解和帮助。
其他文献
我国是小麦的生产和消费大国。2021年,小麦播种面积0.236亿公顷,小麦产量2739亿斤。我国小麦产需平衡有余,随着居民的消费水平提高,人们对优质小麦的需求量不断增大,而小麦品质提升缓慢,导致专用优质小麦供给不足。高分子量谷蛋白亚基(HMW-GS)是小麦种子贮藏蛋白的组成部分之一,影响小麦的加工品质。我国小麦种质的HMW-GS种类多,但优质亚基出现频率较低,且含多个优质亚基的组合的品种偏少,是导
学位
西湖风景区位于浙江省杭州市的中心,它以美丽的风景和众多的历史遗迹闻名国内外。风景名胜区的植物景观是提高生态环境质量,丰富景观效果和保持城市绿化量的重要组成部分,发挥着不可或缺的作用。针对目前风景名胜区植物景观研究的不足,本文以杭州市西湖雷峰塔景区为例,选取35个样地进行分析研究,采用AHP—模糊综合评价法对雷峰塔景区植物景观进行研究,建立评价体系,并对植物多样性、植物景观结构、植物景观效应等方面进
学位
小麦作为南阳市的主要粮食作物,种植面积在800万亩以上,年总产量达325万吨以上,丰收年总产量高达500万吨,是河南粮食生产的核心主产区,为保障国家粮食安全做出了重要贡献。因此,优良的小麦品种对提高小麦产量具有重要的意义。本研究从搜集到的118份小麦材料中筛选出的15份高代品系:西农156、ME195、H44、西农865、郑麦113、HP大10、中麦586、西农685、西农876、HP品8、宛麦1
学位
我国南方地区面临着“磷限制”和日益加剧的氮沉降问题,同时该地区是我国杉木的主要分布区,尽管氮沉降或者磷添加对杉木生理状况和杉木林生态变化的研究已经有较多报道,但对杉木林土壤丛枝菌根真菌影响的研究仍较少。因此本文以10年龄杉木为研究对象,研究不同水平的氮沉降(N0:0 kg·hm-2·a-1,N30:30 kg·hm-2·a-1和N60:60 kg·hm-2·a-1)和磷添加(P0:0 mg·kg-
学位
城市老旧住区户外空间适老化改造是提升城市空间品质的必然要求。近年来,随着老龄人口比例与城市化率的双双提高,大量老龄人口在城市集聚,主要分布在改革开放初期密集建成的各类职工住宅小区里。随着时代变迁,职工住宅小区逐渐成为老旧住区,最早落户的青年职工如今都已步入晚年。城市住区的硬件设施普遍老化,常住居民的老龄化程度居高不下。城市老旧住区户外空间的适老化改造任务已经迫在眉睫。本文强调服务社区老年人的基本理
学位
风景名胜区的文化景观的历史变迁研究是风景名胜区进行合理开发和发展的重要依据。天台山风景名胜区拥有1700多年的历史,其经历发展、演化,形成了如今独有的文化景观风貌。本文在收集整理地方志书、文献丛书等史料文献以及国内外对于国家公园管理体制的相关学术论文、专著等的基础上,开展对天台山风景名胜区文化景观历史变迁的研究。主要成果如下:(1)在文献调研的基础上,汇总天台山风景名胜区的文化景观资源,梳理各个历
学位
玉米(Zea mays L.)是一种广泛种植的主要谷类作物,长期以来被认为是人类的主食。目前,世界上有94个国家的居民体能的45%是由玉米提供的。粮食不足和微量元素的缺乏对很多发展中国家居民营养健康产生了深远的影响,全球45亿人口中,仍有9亿人因玉米供应不足而产生了营养不良问题。微量元素缺乏也是发展中国家十分关注的营养健康问题。人体矿质元素的缺乏是由于食物供应不足导致的,缺乏人体所需的51种矿质元
学位
融资约束一直是中小企业在资金融通时面临的主要难题之一,而农业中小企业由于规模较小、缺乏抵押资产以及信息不对称等问题使得金融机构对其惜贷甚至不贷,融资渠道更为狭窄。随着互联网的出现,数字信息技术与普惠金融的相互结合形成了数字普惠金融,数字普惠金融以信息技术、大数据等为基础,通过减少农业中小企业与各类金融机构之间的信息不对称、降低金融机构对于抵押贷款的依赖,打破空间与时间的限制来赋能金融服务,使金融机
学位
解析基因表达的调控机制是生物学研究的重要问题,解决这一问题的前提和基础是对基因组中顺式调控元件(cis-regulatory elements,CREs)进行系统地鉴定和表征。顺式调控元件是基因组的重要组成部分,通过调控基因的时空表达,参与决定生物表型。顺式调控元件具有进化速率快、高度组织特异性的特点,使得其鉴定和语法解析一直比较困难。近年来,随着ENCODE、FANTOM、GTEx等大型项目的实
学位
玉米淀粉依据累积器官和存储时间的不同可分为茎叶中的临时淀粉和籽粒中的贮藏淀粉。临时淀粉白天在茎叶中合成,晚上降解成蔗糖供给植物夜间生长,而籽粒淀粉决定了玉米的品质。所以两种淀粉合成与转化对玉米产量和品质的形成都至关重要。干旱胁迫是西北地区玉米生产的第一限制性因素,往往给产量带来很大损失,甚至绝收,然而干旱是如何影响淀粉合成的,以及对淀粉的理化性质会带来怎样的影响却鲜有报道。为此,本研究以四个直链含
学位