论文部分内容阅读
生物序列是计算生物学中的一个重要研究对象,主要包含DNA序列和蛋白质序列等。生物序列中隐藏着生物的遗传信息,其发现与研究在生物学、医学、药学等领域上都有重要意义。为了挖掘生物序列中的遗传信息,需要对序列结构进行分析。层次聚类作为一种经典的生物序列结构分析方法,可用于获得不同生物序列之间的相似性关系,进而分析序列的功能,研究其中隐藏的遗传信息。本文研究的是生物序列的一级结构,主要利用各种数值映射方法构造生物序列的特征向量,并基于特征向量对生物序列作结构分析,然后研究生物序列之间的相关关系并预测序列功能,最后讨论其生物学意义。研究中主要使用层次聚类对序列作结构分析,同时结合使用了DNA分段、方差分析和分组讨论等方法,并将处于DNA编码区的p53家族基因和非编码区的DNase I高敏位点(DNase I hypersensitive sites,DHSs)作为研究对象,具体工作为:1、研究p53家族基因的进化差异性。提取24条p53家族的DNA序列作为研究对象,利用混沌游走表示的方法将DNA序列映射为平面直角坐标系中的点列,然后构造8维加权特征向量来描述DNA序列。结合DNA分段和方差分析等方法对24条序列的特征向量作层次聚类。根据聚类结果来分析p53家族基因的差异性。研究结果表明,在p53家族中,p53、p63和p73等3类基因的差异主要体现在DNA序列的前2/3段和所构造特征向量的第4维和第7维上。2、研究p53家族基因的三周期性。由于三周期性是DNA序列蛋白质编码区的一种重要性质,所以提取30条p53家族的DNA编码序列作为研究对象。根据Voss映射和离散傅立叶变换可以获取序列的功率谱,而三周期性可以由功率谱图像直观显示。提取功率谱中的最大功率谱、信噪比、位移偏度和三周期性强度等特征,进而对p53家族基因作分步聚类。研究结果表明,p53家族中p53、p63和p73等3类基因的最大功率谱、信噪比和三周期性强度有显著差异,在位移偏度上整体表现出稳定性。此外,根据分步聚类可以有效地分析序列中体现的生物进化规律。3、DHSs的预测。DHSs是染色质上易被DNase I酶分解的若干片段,对DHSs的预测有助于研究DNA序列非编码区的功能。通过伪三核苷酸组的方法可以提取DHSs和non-DHSs中的局部序列顺序和整体序列顺序。继而对DHSs和non-DHSs作结构分析,并提出分组分类算法对DHSs作预测。根据结构分析的结果可知,DHSs和non-DHSs之间的二连核苷酸CG的含量有显著差异。此外,通过预测结果的比较分析,分组分类算法在DHSs的预测上具有更高的准确率。