论文部分内容阅读
本文共三章: 第一章基于第一ATG规则,统计了大肠杆菌和枯草杆菌基因组中已确定的基因和理论预测的基因其上游L-Ter到起始密码子的距离和L-Ter到起始密码子下游同相位紧邻ATG的距离,结果表明:L-Ter到起始密码子的距离主要分布在20个氨基酸以内;在以第一ATG和第一GTG为起始密码子的基因中,L-Ter到它下游同相位的紧邻ATG的距离是L-Ter到起始密码子平均距离的4~5倍,这些可能是起始密码子的重要位置特征,也说明了少数基因以GTG起始的主要原因。对于不满足第一ATG、GTG规则的基因,分析了L-Ter到起始密码子之间出现ATG、GTG和TTG的比率,发现大肠杆菌理论预测的基因与已确定的基因之间有较大的差别。 第二章采用信息聚类过程得到了SD序列特征强度强与弱两类,并对551个操纵子结构(含有两个以上基因的)中的SD序列进行研究,发现SD序列与操纵子结构、基因表达水平显著相关:操纵子结构中起始基因的SD序列特征强度弱于操纵子内的基因;SD序列的强度与基因表达水平成正相关。分别研究了大肠杆菌中有SD序列特征的基因和无SD序列特征的基因,线虫和酵母基因组中的L一Ter到起始密码子的距离分布以及大肠杆菌起始密码子上游不同相位的终止密码子模式到起始密码子的距离,发现SD序列是原核生物中L一Ter到起始密码子的距离分布出现双峰现象的重要原因,还发现随着生物的进化(从原核到简单的真核)逐渐消失,这说明SD序列特征在真核生物中消失是一个逐渐进化的结果。 第三章以密码子适应性指数(CAI)作为描述基因表达水平特征的参数,运用信息论的方法研究了大肠杆菌不同表达水平的双基因间的关联强度;统计分析了3基因模式、4基因模式和6基因模式出现的相对使用频率。结果发现:同等表达水平的基因组成的模式不仅关联性很强,而且其相对使用频率也很高,而相反表达水平的基因组成的模式虽然基因间关联性也较强,但其对应的相对使用频率很低。