论文部分内容阅读
基因组序列的k-mer使用是非随机的,研究k-mer非随机使用规律以及特征k-mer的生物学功能,对于了解基因组结构和进化具有重要的生物学意义。本文从整个人类基因组出发,通过研究DNA序列8-mer频数分布特征探究其进化保守性。为此我们对人类基因组DNA序列进行了8-mer的提取,按照频数出现从小到大的顺序,设置相同的区组对其绘制频数分布图像,结果显示其分布呈现三峰现象。我们将这三个峰按照从左到右依次叫做峰一、峰二和峰三。按照包含二核苷酸XY的个数,将整个8-mer集合按照不包含、包含一个和包含两个及以上分成三个模体子集,分别记为XY0、XY1和XY2,并且分别绘制分布图,发现只有以CG分组的CG0、CG1和CG2模体子集各自形成独立的单峰,并且与整体8-mer所呈现的三峰相对应。我们在同一坐标系下绘制组分约束下的随机序列8-mer频数分布与人类基因组DNA序列频数分布图像,发现峰三与随机序列相对应,而峰一峰二远离随机分布中心,说明峰三具有随机性,峰一和峰二具有很强的保守性。 结合之前组内的研究,我们推测CG2模体子集是CpG岛序列的核心模体,为了验证我们的猜想,本文中提取整个人类基因组上的CpG岛序列,同时相应的提取等长的非CpG岛序列,按照二核苷酸的分类分别计算每一个模体中的CpG岛序列和非CpG岛序列的特征量,通过分别绘制对应的分布验证了CG2模体子集是CpG岛分类的指标。在之后的研究中,我们对CpG岛序列根据以CG分类的三种特征量Ktri做分布图,发现以CG2分类的特征量在CpG岛序列上呈现了明显的局域结构,再次证明CG2模体子集是CpG岛序列的核心模体,我们分别设定一定的标准提取代表局域结构的序列片段,发现其长度集中在15bp至23bp间,峰值出现在17bp的位置。