论文部分内容阅读
本文由两大部分组成。首先,我们发现了一些在原核生物及真核生物中存在的DNA对称性现象,并探讨其中的原因;其后,以此为基础建立调控元件模块搜索系统(Cis-Regulatory Module Searching System,CRMSS),部分HLA调控区的搜索结果初步验证了CRMSS系统的正确性和数据管理的可靠性。为清楚起见,背景方法等内容分而表之,而结论部分则概而述之。 DNA序列的对称性 背景 在DNA序列中,对称性似乎是它的一个内在属性。从双链的角度看,A=T,G=C;从单链角度看,也存在A≈T,G≈C的现象。近来的研究表明,不多于9个碱基的寡核苷酸与其互补的寡核苷酸在DNA双链上也存在着对称关系。 为解释单链上的这种现象,Seuoka提出:如果DNA的两条链上在选择压力和自然突变上不存在差异,经过一定的时间后,单核苷酸链上,最终将出现A≈T,G≈C的现象。但从分子生物学实验角度看,在选择压力和自然突变等因素影响下,DNA双链上的基因在复制、转录、修复的过程中存在着各种差异。 目的 1.比较DNA双链编码区及密码子位置上碱基的分布频率,比较氨基酸在双链上的使用频率,了解对称性情况,探讨选择压力和自然突变在DNA双链间是否平衡。 2.比较三种形式的简并六寡核苷酸[AT]-[GC]、[AG]-[CT]、[AC]-[GT],在基因两侧的分布情况,探索是否存在对称性现象,是否可用于调控区预测。 方法 1.将细菌基因组编码区文件分成先导链编码区文件及滞后链编码区文件,并去除序列的注释行。 2.计算编码区及三个密码子位置上碱基的使用频率。 3.比较双链上20种氨基酸的使用频率。 4.分析酵母基因组中编码区及其两侧非编码区的简并六寡核昔酸分布。 5.以简并寡核昔酸为变量,对编码区及其两侧各非编码区进行聚类分析。 6.以简并寡核昔酸为变量,对来自不同区域的序列进行判别分析。结果 1.四种碱基在产DNA双链编码区之间的使用频率相等。 2.任一密码子位置上任一碱基的使用频率,在双链之间相等;各密码子位置上碱基的使用频率显著相关,A%与T%,G%与C%均是显著正相关,而(A%、T%)与(G%、C%)两个集合之间却都是显著负相关。 3.20种氨基酸的使用频率在双链之间相等。 4.酵母基因两侧的简并六核昔酸分布呈现整体的对称性。 5.在酵母基因组的非编码区,任一【AG』一[CT],【AC]一[ GT]形式的简并核普酸的数目与其互补片段的比值接近于1。 6.以简并寡核昔酸为变量,非编码区的对应区域首先聚为一类,最后非编码区与编码区聚合。 7.无功能区与编码区的简并寡核昔酸组成明显不同,未翻译区与编码区有一定重合。真核基因调控元件模块的分析背景 基因表达调控的信息是如何编码的,是一个基本的生物学问题。随着大规模基因组研究的开展,人们希望通过生物信息学的方法确定,在基因组中的那些区域包含着调控信息。已有实验研究表明,真核基因的转录调控是通过转录调控因子与基因上游长约数百碱基的调控序列结合来完成的,这些序列含有多个调控因子结合位点,并以特定的次序,特定的间隔排列。目的 1.提取和选择调控元件模块的特点,如序列相似性、寡核昔酸组成、转录因子结合位点、重复序列等方面的特点。 2.根据上述特征,对调控元件模块进行初步的识别。方法 以自主开发为主,适当整合已有模块为辅,建立CRMSS系统。系统的硬件配置为SGI 2400大型计算机和Pentiulnw的个人计算机,操作系统采用UNix及Windows系统,开发工具使用C+--I--、Peri、C#、Matlab等计算机语言,数据库系统选用高效的MysQL及sQL sever 2000软件包。结果1.在不同操作系统和不同程序设计语言环境下,编写、改写和整合了大 量的序列分析函数。2.设计了图形用户界面模块,提高了分析过程的交互性。3.为适应调控元件模块的模式识别工作,嵌入关系数据库系统。4.部分整合上述模块,集成为CRMSS系统,并完成了HLA部分调控区的初步分析。总体结论1.细菌基因组中碱基分布的对称性,是DNA双链上编码区所承受的选 择压力总体一致的结果。2.酵母基因两侧简并寡核昔酸分布的整体对称性,可能与其所受压力 大致平衡有关。这一特性可用于基因调控区的预测。3.以真核基因调控元件的模式识别为框架,建立并验证了CR玉滩55系统 的正确性和数据管理的可靠性。4.通过HLA调控区的分析,发现了其调控序列的一些对称性现象。