论文部分内容阅读
本文从8-mer模体和二阶信息冗余出发,分析人类DNA8-mer序列片段的进化分离与功能、酵母核小体中心序列与连接序列的功能差异、酵母核小体中心序列的局域特征和核小体序列与组蛋白的相互作用。整个研究分为4部分,具体内容如下。 1.以人类1号染色体DNA序列为样本,将其分成CDS、5UTR、3UTR、内含子和基因间5类序列,分别计算它们的8-mer相对模体频数随频数的分布。发现CDS呈现单峰分布,5UTR和3UTR近似呈现单峰分布,内含子和基因间序列呈现明显的3峰分布。将全部8-mer按含有2个或2个以上、1个和0个CG二核苷分为CG2、CG1和CG0三个模体子集,重绘8-mer分布。发现三个模体子集可以形成独立的分布,并且3个子集的分布中心与总体八模体3峰分布的分布中心相同。按其它15个二核苷分类出的三个模体子集则不能形成独立分布。在CG模体中计算二核苷与三核苷的相对频数,发现5类序列的二核苷与三核苷相对频数分布,在CG2模体中基本相同,在CG1模体中相近,在CG0模体中差别最大。分析结果表明,CG2和CG1模体在进化上具有保守性,在不同序列中的使用具有趋同性,CG0模体在进化上具有多样性,在不同序列中的使用具有趋异性。 2.以酵母全基因组为样本,基于Brogaard等人2012年在Nature上发布的酵母全基因组单碱基精度的核小体定位图谱,从中提取核小体中心序列和连接序列。计算k-mer在两类序列中的相对频数。发现模体越长使用偏置越强,并且极少数强偏置模体表现出使用差异。计算k-mer频数对数比,并按其增序随模体个数进行排列。发现只有8-mer呈现对称分布,且中心序列中一部分8-mer使用远大于连接序列,一部分8-mer使用远小于连接序列。计算8-mer频数对数比随按增序排列的中心相对频数的分布。发现8-mer使用差异主要发生在中心相对频数很小的区域。将k-mer频数对数比按中心相对频数的增序随模体个数进行排列。发现在中心相对频数较小区域只有8-mer的使用差异格外显著。计算0、1万、2万、3万、4万、5万和6万附近局域8-mer的G+C含量和二核苷含量,同时在每组局域8-mer中选取等数量最大和最小的8-mer重复上述计算。发现模体的G+C含量随着相对频率的增大而逐步减小。中心序列更加偏好GG和CC二核苷,而连接序列更加偏好GC二核苷。连接序列中CG二核苷的使用总是高于中心序列。分析结果表明发挥功能的核小体结合模体至少8bp长,并且含CG二核苷的模体的序列特征应该与核小体中心序列密切相关。 3.以酵母2号染色体为样本,根据Brogaard等人获得的酵母全基因组单碱基精度的核小体定位图谱,在酵母2号染色体上所有转录起始位点(TSS)和转录终止位点附近(TTS)提取全部的+1与-1、+2与-2核小体序列,并在2号染色体、2号染色体的CDS和基因间区域上提取全部的核小体序列。将组蛋白八聚体在核小体中心序列上进行展开。发现组蛋白排列在核小体中心位点两侧具有不对称性。根据组蛋白的位置排列及Brogaard等得到的AA/TA/AT/TT二核苷的频率分布,将每类核小体序列分为五组,并按行计算它们的二阶信息冗余(D2)。因为不同的序列长度和C+G含量会影响D2取值,所以对于每类核小体的五组序列,每组序列分别随机生成100个随机序列,且随机序列与原序列等长且A+T总量相同。按行计算五组随机序列的二阶信息冗余(是100个随机序列的二阶信息冗余的平均值)。将原序列与随机序列的二阶信息冗余作对数处理(以2为底),发现在动态平衡下-1和-2核小体(TSS和TTS)具有向3端移动的趋势;+1和+2(TSS和TTS)核小体具有向5端移动的趋势。 4.以酵母全基因组16条染色体为样本,根据Brogaard等人获得的核小体定位图谱,按上述方法在酵母全基因组上提取同样的10类核小体序列。为了保证10类样本序列的随机涨落是相同的,每类核小体都取6363条。将核小体单个对齐排列,按列计算每类核小体序列的二阶信息冗余。发现二阶信息冗余分布虽然比较凌乱,但在核小体中心两侧存在不对称性分布。因为二阶信息冗余反映了核小体序列与组蛋白相互作用的强弱,所以它的不对称性可能揭示了核小体移动的本质原因。对10类核小体的二阶信息冗余分布采取平滑处理。平滑后二阶信息冗余分布具有显著的不对称性。研究结果表明+1和+2核小体(TSS和TTS)具有向5端移动的趋势,-1(TSS和TTS)和-2(TTS)具有向3端移动的趋势,-2(TSS)具有向5端移动的趋势。