论文部分内容阅读
从遗传和变异的观点来看,细胞本身就构成了一个信息处理的独立基本单元,从DNA自身的复制、转录RNA到翻译为蛋白质,是对生物的遗传信息进行存储、传递。按传统的遗传学观点,所有的遗传信息都蕴含在遗传物质之中,这个信息处理系统掌控着生物的发育、生长和遗传。那么要揭示生命体内部的具体工作机制,使用信息科学中的方法来研究遗传信息的存储、传递和表达是必不可少的。信息论是研究信息的度量、传递、交换和存储的一门学科。由于遗传信息作为信息的一种,其存储和传递必然遵循信息存储与传递的一般规律,因而可以采用信息论方法对遗传信息进行分析。本文首先介绍了课题背景,国内外的研究现状以及研究目的和意义,紧接着介绍了信息论中关于信息熵的一些基本概念,如联合熵、条件熵等问题,提出了一种基于信息熵理论分析DNA序列的方法。在后基因组时代,生物信息学领域的研究热点之一就是如何快速而又准确的标定DNA序列的编码区和非编区。先前已有很多种方法被提出用于区分编码区和非编码区,但都需要特定的DNA数据集,不具有普适性,然而信息熵的方法弥补了这一缺陷。首先对1947种细菌基因组编码区和非编码区的信息熵进行了计算,发现二者的信息熵曲线呈现振荡式,编码区的信息熵值略大于非编码区的信息熵值;接着用最新提出超信息熵(super information entropy,简称SIE)的方法计算了编码区域和非编码区域中的超信息熵,并且对二者进行了分析比较。比较显示:在真核生物种,超信息熵在编码区和非编码区有很好的区分度,然而在细菌这种原核生物中,其编码区和非编码区的超信息熵几乎区分不出来;同时,对编码区和非编码区的超信息熵的差值频率进行了统计,结果表明:超信息熵差值的概率分布图呈现出高斯分布,编码区的超信息熵值略大于非编码区,和大多数真核生物的结果刚好相反,再者二者的超信息熵的区分度不是很大。最后我们选取了有代表性的6种细菌DNA序列,对其语言学特征进行了研究,理论上如果所有的单词文本都按照从高频到低频的等级顺序进行按序号排序,在双对数曲线下的斜率等于-1即满足齐普夫定律(zipf)。在真核生物中,研究表明:用齐普夫定律的方法对DNA碱基对序列的语言学文本进行了统计,发现非编码区比编码区更接近于人类自然语言,然而在细菌的基因组中对于编码区和非编码区而言,用语言学齐普夫定律的方法进行分析,发现这种方法几乎区分不出来二者,编码区和非编码区的曲线图几乎是重合的,而且对其曲线图进行了线性拟合,发现二者的斜率远小于-1,这表明这种语言学的方法细菌DNA序列中是不适用的即该方法不具有普适性,从另外一个角度也表明细菌等原核生物比起真核生物没有较强的语言学特性,而且进一步说明非编码区并非真正意义上的“垃圾DNA”。本文使用信息熵方法所得的结果表明,信息熵能够很好地表征一些生物学特性,它在生物信息学中的应用还有待人们进行更深入的研究。