论文部分内容阅读
后基因组时代面临的一个挑战性问题是基因组复杂信息结构的提取。本文以统计语言学和湍流层次结构模型(HierarchicalStructuremodel,HSmodel)为基础,发展了原核生物基因识别的多元熵聚法(MultivariateEntropyDistance,MED),以及基因组奇异碱基组分结构的多尺度分析方法。
我们在第二章介绍了统计语言学的研究思想和湍流的层次结构模型,并提出用统计语言学研究基因组复杂结构的基本框架和适用于基因组多尺度结构研究的层次结构模型。
在第三章,我们发展了编码与非编码DNA序列文本的统计语言学描述,并用于原核基因预测。以(伪)氨基酸组分作为基本词汇,我们定义了熵密度分布(EntropyDensityProfile,EDP)作为序列的整体刻画。我们发现编码和非编码开放阅读框(OpenReadingFrame,ORF)在EDP空间具有聚类性。我们设计了基于EDP描述和相似性扩增的MED基因识别方法。测试表明,MED在对原核基因组编码ORF的预测上取得了与GeneMark和Glimmer等知名算法不相上下的精度。
在第四章,我们将层次结构模型用于刻画基因组多尺度复杂不均匀组分结构。对不同物种(包括病毒、原核生物、真核生物)的研究表明,碱基含量沿DNA方向具有与湍流信号类似的层次相似律。我们发现真实DNA序列的层次结构特性区别于随机序列以及一个简单的基因组演化模型的模拟序列。层次结构参数β对1的偏离对应于碱基含量涨落场中奇异强涨落尖峰的出现。我们定义了序列复杂性(SequenceComplexity,SC),发现该复杂性量度与生物复杂性相一致。最后,我们讨论了层次结构分析结果对基因组演化研究的意义,揭示遗传物质交换在基因组演化中的重要性,并提出了一个基因组共进化模型的框架。