基因组复杂信息结构研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:a11253919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后基因组时代面临的一个挑战性问题是基因组复杂信息结构的提取。本文以统计语言学和湍流层次结构模型(HierarchicalStructuremodel,HSmodel)为基础,发展了原核生物基因识别的多元熵聚法(MultivariateEntropyDistance,MED),以及基因组奇异碱基组分结构的多尺度分析方法。 我们在第二章介绍了统计语言学的研究思想和湍流的层次结构模型,并提出用统计语言学研究基因组复杂结构的基本框架和适用于基因组多尺度结构研究的层次结构模型。 在第三章,我们发展了编码与非编码DNA序列文本的统计语言学描述,并用于原核基因预测。以(伪)氨基酸组分作为基本词汇,我们定义了熵密度分布(EntropyDensityProfile,EDP)作为序列的整体刻画。我们发现编码和非编码开放阅读框(OpenReadingFrame,ORF)在EDP空间具有聚类性。我们设计了基于EDP描述和相似性扩增的MED基因识别方法。测试表明,MED在对原核基因组编码ORF的预测上取得了与GeneMark和Glimmer等知名算法不相上下的精度。 在第四章,我们将层次结构模型用于刻画基因组多尺度复杂不均匀组分结构。对不同物种(包括病毒、原核生物、真核生物)的研究表明,碱基含量沿DNA方向具有与湍流信号类似的层次相似律。我们发现真实DNA序列的层次结构特性区别于随机序列以及一个简单的基因组演化模型的模拟序列。层次结构参数β对1的偏离对应于碱基含量涨落场中奇异强涨落尖峰的出现。我们定义了序列复杂性(SequenceComplexity,SC),发现该复杂性量度与生物复杂性相一致。最后,我们讨论了层次结构分析结果对基因组演化研究的意义,揭示遗传物质交换在基因组演化中的重要性,并提出了一个基因组共进化模型的框架。
其他文献
本论文研究的GaN薄膜是一种具有优良物理和化学性质的宽带隙半导体材料,并对该材料的生长、器件化以及离子注入等研究领域进行了系统地调研。由于离子注入对该材料的光学和
受益于激光光源的发展,以腔增强、腔衰荡吸收光谱技术为代表的高灵敏度光谱技术已成熟应用于痕量气体探测。腔增强光谱技术由于具有实验装置相对简单、成本低、灵敏度高、鲁棒
在建立60Coγ射线空气比释动能基准时,通过引进电离室室壁修正因子Kwall来修正电离室室壁对光子吸收和散射作用引起的γ射线减弱效应,可以提高空气比释动能的测量精度。关于如
四川双流县东升一中教师人人心系学校,视校为家,乐学乐教;学校领导团结齐心,真抓实干;教师敬业爱岗,以校为荣,凝聚力强;学生勤奋、乐学、高效的学风已经形成,教育教学质量稳步提高,已成为双流初中教学的排头兵。学校以“人本·和谐”的治校理念,创建和谐团队上作了积极的实践与探索,使教职工们的整体素质得到提升,为学校步入可持续发展道路提供了保障。    东升一中近十年来,教育教学质量一年一种新面貌,中考成绩
泰特美术馆是世界顶级美术馆里比较早开放拍照的。2003年,艺术家奥拉维尔·埃利亚松的《天气计划》在泰特展出,它不仅刷新了泰特有史以来的参观者人数纪录,也改变了“美术馆法则”:馆方欢迎参观者拍照,甚至允许他们在展厅吃东西。  这几家美术馆属于坚定的“禁止拍照”派:意大利乌菲齐美术馆、西班牙普拉多美术馆、加拿大安大略美术馆。  英国国家美术馆于2014年“解禁”,为此《每日电讯报》艺术版主编萨拉·克朗
期刊
在阅读教学中,朗读和诵读都是以发声的方式把文本内容一字一句读出来。关于朗读大家关注和论及的情形比较多,而对诵读的研究相对比较薄弱。读了贵刊今年第7期严杏老师的文章
Ⅲ族氮化物半导体材料是一种新型的光电功能材料,具有较宽的禁带宽度、较高的热稳定性和化学稳定性,被广泛应用于发光二极管(LED)、太阳能电池、固体激光器和光电探测器等方面
本论文在简要回顾超导电性物理的发展和高温铜氧化物超导体近来所取得的研究进展后,着重介绍了本人在这三年攻读博士学位期间所做的主要研究工作。研究的主要目的是利用高压技
随着青少年体质健康关注度的提升,学生体质健康管理系统已经成为当今健康管理领域一个热门的研究方向。大多数学生体质健康管理系统仅有对学生体测数据的采集及统计分析,忽略了