论文部分内容阅读
作为真核生物染色质的基本组成单位,核小体控制了转录因子与结合位点的结合通道,故在DNA复制与修复、RNA剪接、基因转录调控等基本生命过程中扮演着重要的角色。核小体定位是对全基因范围内核小体精确位置的预测。 首先,在对已有核小体定位模型的研究基础上,本文从核小体定位具有序列依赖性的理论基础上,应用统计方法提取DNA序列k(k=2,3)连体的频数,并结合Tsallis熵DNA序列的双螺旋结构提出了一种新的提取核小体定位信息的模型。基于该模型,每条DNA序列用8维向量表示,方便我们利用数学物理手段进行核小体定位研究。接下来,本文基于相对距离概念提出了核小体占有率模型,确定了全基因范围内每个位点被核小体覆盖的可能性。最后,本文提出了峰值识别模型建立了全基因序列上的核小体定位图谱。当用于训练支持向量机时,核小体定位信息模型区分五个物种(Human,Medaka,Nematode,Candida,Yeast)的核小体DNA序列以及连接DNA序列的AUC值分别为0.9182,0.8922,0.9163,0.8261和0.9109,优于以前发表的模型结果,说明了核小体定位信息模型的有效性。此外,本文将全基因序列上的核小体定位图谱与Kaplanetal[10].,Segaletal.[5],Yuanetal.[4]的论文结论进行比较,结果显示本文提出的核小体定位模型是可行的,准确度较高。 本文主要有以下三方面的成果: 一、本文基于Pearson相关性,将四种核菅酸(A、C、G、T)分为两类,简化了DNA序列的数学向量的构成; 二、本文首次将Tsallis熵进行变形,并应用于核小体定位研究,拓宽了核小体定位的研究思路; 三、本文应用距离概念来进行序列的相似性分析,很大程度上简化了计算的复杂度,使大数据量的核小体定位计算难度降低。 本文基于核小体定位信息模型,核小体占有率模型以及峰值识别模型得出了啤酒酵母全基因序列上的核小体定位图谱,但是影响核小体定位的因素很多,例如DNA序列的依赖性、蛋白质分子的竞争与合作、ATP依赖重塑复合物等多种因素。如果我们可以更加系统的分析这些核小体定位的影响因素,得到一个综合的定位模型,那么预测的结果会更好。此外,不同的生物核小体的定位机制不尽相同,我们需要做的是将本文方法进一步的应用于更加复杂的真核生物,例如人类数据,深入确定本文方法的适用范围及改进方向。目前,研究者们还没有给出一个完全客观正确的核小体定位图谱,不同方法、平台得出的预测结果存在差异。因此,我们需要进一步的借助实验的手段来确定本文模型的精确性。