人类DNA序列8-mer模体进化差异及酵母核小体结合序列特征分析

来源 :内蒙古大学 | 被引量 : 3次 | 上传用户:mmyxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从8-mer模体和二阶信息冗余出发,分析人类DNA8-mer序列片段的进化分离与功能、酵母核小体中心序列与连接序列的功能差异、酵母核小体中心序列的局域特征和核小体序列与组蛋白的相互作用。整个研究分为4部分,具体内容如下。  1.以人类1号染色体DNA序列为样本,将其分成CDS、5UTR、3UTR、内含子和基因间5类序列,分别计算它们的8-mer相对模体频数随频数的分布。发现CDS呈现单峰分布,5UTR和3UTR近似呈现单峰分布,内含子和基因间序列呈现明显的3峰分布。将全部8-mer按含有2个或2个以上、1个和0个CG二核苷分为CG2、CG1和CG0三个模体子集,重绘8-mer分布。发现三个模体子集可以形成独立的分布,并且3个子集的分布中心与总体八模体3峰分布的分布中心相同。按其它15个二核苷分类出的三个模体子集则不能形成独立分布。在CG模体中计算二核苷与三核苷的相对频数,发现5类序列的二核苷与三核苷相对频数分布,在CG2模体中基本相同,在CG1模体中相近,在CG0模体中差别最大。分析结果表明,CG2和CG1模体在进化上具有保守性,在不同序列中的使用具有趋同性,CG0模体在进化上具有多样性,在不同序列中的使用具有趋异性。  2.以酵母全基因组为样本,基于Brogaard等人2012年在Nature上发布的酵母全基因组单碱基精度的核小体定位图谱,从中提取核小体中心序列和连接序列。计算k-mer在两类序列中的相对频数。发现模体越长使用偏置越强,并且极少数强偏置模体表现出使用差异。计算k-mer频数对数比,并按其增序随模体个数进行排列。发现只有8-mer呈现对称分布,且中心序列中一部分8-mer使用远大于连接序列,一部分8-mer使用远小于连接序列。计算8-mer频数对数比随按增序排列的中心相对频数的分布。发现8-mer使用差异主要发生在中心相对频数很小的区域。将k-mer频数对数比按中心相对频数的增序随模体个数进行排列。发现在中心相对频数较小区域只有8-mer的使用差异格外显著。计算0、1万、2万、3万、4万、5万和6万附近局域8-mer的G+C含量和二核苷含量,同时在每组局域8-mer中选取等数量最大和最小的8-mer重复上述计算。发现模体的G+C含量随着相对频率的增大而逐步减小。中心序列更加偏好GG和CC二核苷,而连接序列更加偏好GC二核苷。连接序列中CG二核苷的使用总是高于中心序列。分析结果表明发挥功能的核小体结合模体至少8bp长,并且含CG二核苷的模体的序列特征应该与核小体中心序列密切相关。  3.以酵母2号染色体为样本,根据Brogaard等人获得的酵母全基因组单碱基精度的核小体定位图谱,在酵母2号染色体上所有转录起始位点(TSS)和转录终止位点附近(TTS)提取全部的+1与-1、+2与-2核小体序列,并在2号染色体、2号染色体的CDS和基因间区域上提取全部的核小体序列。将组蛋白八聚体在核小体中心序列上进行展开。发现组蛋白排列在核小体中心位点两侧具有不对称性。根据组蛋白的位置排列及Brogaard等得到的AA/TA/AT/TT二核苷的频率分布,将每类核小体序列分为五组,并按行计算它们的二阶信息冗余(D2)。因为不同的序列长度和C+G含量会影响D2取值,所以对于每类核小体的五组序列,每组序列分别随机生成100个随机序列,且随机序列与原序列等长且A+T总量相同。按行计算五组随机序列的二阶信息冗余(是100个随机序列的二阶信息冗余的平均值)。将原序列与随机序列的二阶信息冗余作对数处理(以2为底),发现在动态平衡下-1和-2核小体(TSS和TTS)具有向3端移动的趋势;+1和+2(TSS和TTS)核小体具有向5端移动的趋势。  4.以酵母全基因组16条染色体为样本,根据Brogaard等人获得的核小体定位图谱,按上述方法在酵母全基因组上提取同样的10类核小体序列。为了保证10类样本序列的随机涨落是相同的,每类核小体都取6363条。将核小体单个对齐排列,按列计算每类核小体序列的二阶信息冗余。发现二阶信息冗余分布虽然比较凌乱,但在核小体中心两侧存在不对称性分布。因为二阶信息冗余反映了核小体序列与组蛋白相互作用的强弱,所以它的不对称性可能揭示了核小体移动的本质原因。对10类核小体的二阶信息冗余分布采取平滑处理。平滑后二阶信息冗余分布具有显著的不对称性。研究结果表明+1和+2核小体(TSS和TTS)具有向5端移动的趋势,-1(TSS和TTS)和-2(TTS)具有向3端移动的趋势,-2(TSS)具有向5端移动的趋势。
其他文献
大气湍流相干结构是指湍流中呈现出的有组织的大尺度涡旋结构,对湍流的生成、发展和演变起着决定性作用。大气湍流相干结构引起的物质交换、能量和动量输运,对研究大气动力学过
激光在大气中传播时会与大气介质相互作用产生一系列线性与非线性效应,这些效应引起光束漂移、扩展、相位畸变,使得传播路径上光束能量和功率密度下降。激光大气传输研究这些效
2012年,希格斯玻色子(Higgs)由大型强子对撞机(LHC)上的ATLAS和CMS实验组通过研究双玻色子衰变道而发现。该粒子的发现完善了标准模型理论并开启了粒子物理研究的新时代。在此
拓扑绝缘体自发现以来备受科学界的关注,主要是因为它具有不同于传统意义上的金属和绝缘体的奇特性能。它的表面具有无能隙的表面态,表现出金属行为,并且表面态的电子自旋方向相
等离子体是激光与靶材相互作用产生的一种重要现象,为了发现激光与靶材间的相互作用机制,我们就可以针对激光产生等离子体来研究。  本文首先对激光与电弧共同作用于钢靶材的
大气光学湍流影响地基天文望远镜观测质量、破坏激光传输特性,制约光电工程的应用,因此能够模式估算和测量光学湍流意义重大。由于不同下垫面大气光学湍流的产生和发展存在较