整合DNA序列和表观信息识别拓扑结构域的边界和沉默子元件

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:apworld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
影响基因转录与表达的非编码序列调控元件(non-coding regulatory elements,NCREs),在细胞分化和生命进化的过程中起着极其关键的作用,与基因组空间结构也有着密切关联,它们的变异往往也伴随疾病的产生。因此鉴定NCREs是研究生物进化发育和人类疾病的重要方向。随着基因组学三次浪潮的推进以及生命大数据的产生,机器学习方法在生物数据上的应用得到了广泛普及。该方法可以更好更快地挖掘NCREs的关键特征,从而准确识别重要的调控元件。而沉默子(silencer)元件和边界元件(boundary element),作为NCREs中的一种,对基因的转录调控都有着各自的影响。因此在本文中,本研究利用机器学习方法开发了识别拓扑结构域(Topologically Associating Domain,TAD)的边界以及基因组中沉默子元件的预测模型,并在全基因组范围内实现了应用。拓扑结构域(TAD)作为基因组三维结构中的基本单元,在转录调控和多种生物学功能上扮演着重要作用,而相邻TAD的边界区域则起着维持结构稳定和隔绝邻近TAD调控的功能。本文首先关注TAD边界元件,发现至今大多数识别TAD边界的软件算法基于高通量染色质构象捕获技术(High-throughput chromosome conformation capture,Hi-C)数据,对TAD边界的关键特征研究,以及这些重要特征是否适用其他细胞系,仍然是未知的。为探讨TAD边界目前存在的问题,本文通过随机森林模型以及基于DNA序列信息与表观遗传特征信息提出了pTADS方法,在七个细胞系中分析TAD的边界元件。沉默子元件通常被认为是一段具有使基因失活的序列,对转录调控以及细胞命运的决定有着关键作用。由于时间周期和经费上的局限性,通过高通量实验鉴定沉默子的方法无法应用到全基因组。而现阶段的沉默子预测模型大多关注单一特征,对复杂沉默子的兼容性不佳。针对沉默子的这些问题,本研究提出序列层次的表观遗传修饰特征,利用并联卷积神经网络,开发了高效和快速预测沉默子的模型。本文对边界元件和沉默子元件的具体研究结果如下:1.通过对TAD边界特征的系统分析,发现了几种DNA-蛋白质结合印迹信息在多个细胞系的边界元件中都是重要的,如CTCF、H3K36me3、H4K20me1、H3K4me3和H3K9me3,并且这些共享特征对TAD边界的识别和TAD边界强度的表征也很关键。2.基于pTADS方法在全基因组范围内预测的TAD边界,有90%被基于HiC数据的算法软件识别的TAD边界验证,这些结果说明了pTADS方法的有效性和稳定性。3.本研究主要在K562(白血病细胞)和HepG2(人类肝癌细胞)两个细胞系中的染色质开放区域做了系统的沉默子预测分析。与现今基于序列的模型相比,本研究把模型的预测精度从AUC=0.82提高到了AUC=0.89。对不同实验得到的沉默子,本研究的敏感性从0.3提高到了0.5。4.本研究发现,虽然不同细胞系的沉默子不具有基因组位置的保守性,但染色质状态以及富集的motif都具有抑制效应。综上所述,本文在TAD边界发现的这些特征的组合机制以及这些特征在TAD动态结构和TAD边界上的线性顺序,对未来TAD结构的研究工作提供了一些思路和启示。对于沉默子元件的准确识别,表明了多特征融合可以有效解决沉默子复杂性的预测。本研究使用机器学习方法搭建模型,建立拓扑结构域边界元件或者沉默子元件的特征间关系,不仅提高了预测边界元件和沉默子元件的准确性,也为基因组非编码序列的调控元件与三维构象、生命进程的关系提供了理论研究基础。
其他文献
生菜是世界上最为重要的叶用蔬菜之一,在我国有着广泛的种植。生菜常作为沙拉食用,叶卷曲性状直接关系到其感官品质。我们通过不同材料的组合杂交构建了叶卷曲的遗传分离群体,利用BSA+RNA-seq的方法鉴定到两个主要QTL位点Lettuce wavy leaves 1(LWL1)和Lettuce wavy leaves 2(LWL2),并通过图位克隆获得两个位点的候选基因LsKN1和LsTCP4。我们通
学位
开花和果实成熟是植物完成生殖生长,进行种群繁衍的关键,也是以种子或果实为产品器官的作物产量形成的重要基础。番茄(Solanum lycopersicum.L)是一种重要的经济作物,也是研究花和果实发育的模式作物。果实作为其主要产品器官,为人们的饮食提供丰富的营养物质。番茄是一种呼吸跃变型果实,乙烯在果实成熟过程中发挥重要的调节作用,但是我们对果实成熟过程中乙烯的自主催化调控网络的认识仍然有限。而花
学位
草莓属于蔷薇科草莓属,在叶片和花器官形态上具有独特的发育特征。小RNA是长度在18-30 nt左右的的一类RNA分子,在植物器官发育、生物及非生物胁迫应答等过程具有非常重要的功能。其中,mi RNA为植物内源基因编码,且能够和靶标m RNA碱基互补在转录后水平抑制其表达。si RNA常通过Rd DM(RNA介导的DNA甲基化)途径影响DNA甲基化,在调控靶基因表达、转座子沉默、基因组稳定性维持等方
学位
磷是水稻(Oryza sativa)生长发育所必需的第二大营养元素。土壤中的能被植物吸收的无机单磷酸(Pi)含量有限,为了保证水稻产量往往会使用磷肥。然而,磷肥的过度使用会造成水体富营养化,破坏生态环境。深入挖掘水稻磷高效吸收利用相关的基因并研究他们相互作用的分子机制,对于粮食增产和环境保护具有重要的理论意义和实际应用价值。植物可以适应低Pi的生长环境,维持细胞内的磷稳态。当细胞Pi缺乏时,大量磷
学位
“上火”是传统中医对体内非适应性热症症状的一种俗称,主要表现为口腔溃疡、牙龈肿痛、咽喉痛,流鼻血、目赤、口干、体温升高等症状。柑橘果实营养丰富、口感与风味俱佳,含有多种有益于人体健康的功能性成分;人参是一种药食同源的中药材,药理成分丰富、药用价值高,常作为膳食补充剂添加于各种功能性食品中。柑橘果实和人参一直广受消费者的喜爱,但日常生活中过量食用宽皮柑橘(如温州蜜柑)或人参极易引起“上火”,且在症状
学位
黄鳝(Monopterus albus)是雌雄同体,具备天然性逆转特点的硬骨淡水鱼。黄鳝雌性个体小,并且出现性逆转,严重影响了黄鳝的繁殖力,极大的限制了黄鳝人工繁殖的规模和水平。性腺是种群繁殖的基础,性激素是影响性腺发育和分化的重要因素。雌激素和雄激素的平衡反应促进鱼类性腺发育、分化和性逆转,决定了鱼类的性别,因此解析鱼类性别决定的分子调控机制能够为鱼类人工繁育提供理论基础,促进渔业增产。micr
学位
大刺鳅(Mastacembelus armatus)隶属合鳃目(Symbranchiformes)、刺鳅科(Mastacembelidae)、刺鳅属(Mastacembelus),是一种广泛分布在印度、巴基斯坦、尼泊尔、西非、中国南方和东南亚其他地区的名贵经济鱼类。近年来,随着人工繁殖和养殖技术的发展,逐渐发现大刺鳅具有明显的性别二态性,且人工养殖过程中出现了性别比例失调等问题,大刺鳅的性别决定机
学位
埃及经济改革后,埃及棉花行业开始面临来自种植、加工和出口的多方面挑战。由于高生产成本和低生产效率,种植棉花的利润不断下降,导致棉花种植面积减少、产量减少,进而导致出口额下降。该研究的目的是:考察经济改革政策对棉花种植面积的影响以及未来预期。制定和估计埃及棉花作物的协整关系,以确定影响农民种植棉花的主要因素,为国家加强棉花种植制定明确路径。考察经济改革政策对埃及棉花生产的影响,研究棉农的盈利能力,核
学位
染色质的三维结构与基因调控和细胞功能有紧密的内在联系。基于染色体构象捕获技术(Chromosome Conformation Capture,3C)的实验显示,真核生物的染色体在三维结构上被划分为A/B区室(compartment),且分别与常/异染色质相吻合。因此,A/B区室是与基因表达相关联的,同时也具有细胞特异性。传统的A/B区室是由对互作矩阵主成分分析(Principal Componen
学位
柿果实中积累了大量的原花青素(PAs),是产生涩味的物质。原花青素(PAs)是在漆酶活化下储存在植物液泡中的黄烷/-3-醇聚合物。DkLAC2被认为参与PAs的生物合成,并受柿中的microRNA(DkmiR397)调节。然而,miRNA397参与的原花青素的聚合作用在柿中仍研究较少。在这里,我们在‘鄂柿1号’中鉴定了 pre-DkmiR397及其靶基因DkLAC2。GUS染色和双荧光素酶测定均证
学位