论文部分内容阅读
水稻是世界上最主要的粮食作物之一。由于相对较小的基因组(约4.30亿碱基对,430Mb)、成熟的遗传转化系统、高密度的遗传图与物理图资源等,它被作为禾本科研究的模式作物。水稻四号染色体的完成序列包含了8个重叠群共287个BAC克隆和2个PAC克隆,总长度三千四百五十万碱基对(34.5 Mb),覆盖了全染色体的97.3%。基因组序列注解就是从庞杂的序列中抽提出有生物学意义的信息,然后把它放回到生物体代谢、调控、遗传和进化的复杂环境系统中来研究,它架起了一座连接基因组学与生物学的桥梁。基因组序列注解是一个复杂的过程,我们在核苷酸、蛋白质和代谢调控过程三个层次对水稻四号染色体的所有软件自动预测基因进行了详细的人工分析判断,最终在水稻四号染色体上鉴定出4658个编码蛋白质的预测基因,70个tRNA和四个snoRNA。在这些基因中,有1681个被水稻来源的EST数据支持;有1004个属于多基因家族,其中大部分属于基因的局部扩增。还有2618个基因没有明显的拟南芥同源基因,显示这些基因可能代表了水稻或者单子叶植物特异的一些基因类型,如肌醇六磷酸酶等。亚洲栽培稻有粳稻和籼稻两个亚种。我们的比较基因组分析表明,在粳稻日本晴和籼稻广陆矮四号之间存在高度的、整体水平的共线性,这种共线性沿着染色体有明显的波动:在短臂近端粒附近,序列间的保守性较高;在着丝粒附近的异染色质区域保守性降低;而长臂的大部分常染色质区域保守性最高。它们之间的差异主要表现在单核苷酸多态性(SNPs)和插入或缺失(Indels)上。我们在基因组序列注解过程中总结出了在高等植物的同源基因之间的“外显子长度保守性” 规律(Conserved Exon Length, CEL)。这个规律对于基因组间的扩增基因或者保守的单拷贝基因同样适用。这表明我们可以利用注解相对准确的拟南芥基因组数据来加速水稻基因组的分析注解工作,或者相反。另外,这个规律还可以帮助我们判断翻译起始位点、识别没有内含子的Retroposons或者阐明基因家族的进化路线等。根据CEL规律,我们在拟南芥全基因组中鉴定出了36个Retroposons。结<WP=5>果显示,Retroposons似乎更偏好第五号染色体而回避第四号染色体。在这些基因中,有23个属于已知基因,它们大都参与了细胞周期、转录及转录后加工等过程。这36个基因可以分成两类:第一种获得了转录活性而保留了下来,共有20个基因;另一种是在非常近期的历史中插入基因组中的。进化分析显示大部分Retroposition发生在单、双子叶植物分化之后,尤其是在拟南芥从Brassica分化出来以后。在8个单外显子单拷贝基因中有7个可以活性转录,其中的5个发生在α扩增事件之后,这表明高等植物基因组在扩增之后的基因丢失现象比较普遍。36个鉴定出的基因只占全部基因的0.13%,因此对植物基因组来讲,Retroposition是一个影响很小的进化“小插曲”。高等植物在进化中形成了对于三价铁吸收的两种不同机制,即禾本科单子叶植物的螯合机制和非禾本科植物的还原机制。我们通过详细的比较基因组分析发现,在拟南芥中同样也存在螯合机制的基因,它的Superroot突变基因就是禾本科植物的NAAT基因,它们都有高度保守的基因结构。这就意味着禾本科与非禾本科植物在铁离子吸收机制上的分化发生在更下游的位置,我们就将它们之间保守的代谢途径又延伸了一个点。现在我们正通过实验来证实这个推测。