论文部分内容阅读
硒是生物体内的一种必需微量元素,与克山病、大骨节病、癌症等疾病密切相关,在细胞生长、增殖和衰老、以及病毒繁殖等过程中发挥重要作用。硒在蛋白中以第21 种氨基酸――硒代半胱氨酸(Sec)的形式存在。Sec 由UGA 密码子编码,而UGA 在经典的遗传密码中为终止码。硒蛋白中Sec 的这种特殊的解码方式是由mRNA中一种特殊茎环结构,即Sec 插入序列(SECIS)所介导,SECIS 结构出现在硒蛋白mRNA的3′-非翻译区(3′-UTR)。此外,绝大多数已知硒蛋白具有含半胱氨酸(Cys)的同源蛋白,Sec 在这些同源蛋白中被Cys 所取代。
基因注释是将基因组序列与它们可能代表的生物学功能联系起来的重要工具。
尽管越来越多物种的基因组序列和基因序列相继被公布和注释,但其中的硒蛋白基因却不能像普通基因一样被正确识别,这是由于硒蛋白中编码Sec 的密码子UGA 的双重解码方式,它使硒蛋白的自动注释工作变得很困难,造成绝大多数的基因组中硒蛋白都被错误注释或者没有被注释。
本文下载了疟蚊、蜜蜂和家蚕三个物种的所有最新cDNA 和DNA 序列,并从cDNA数据中选出所有由GENSCAN、SNAP或BGI等软件测试得到的基因。疟蚊、蜜蜂和家蚕三个物种分别包含19839、45058、18518 条单独基因。DNA 数据包括疟蚊5 条染色体的全长DNA 数据;蜜蜂16 条染色体的全长DNA 数据。而我们使用到的家蚕基因组数据包括23155 条Scaffold 和大量未集成序列,其中还包含115360 条家蚕EST 序列。为在以上下载的数据中识别硒蛋白,本文采用PERL 语言编辑程序,计算机检索上述数据库中以TGA 终止的全部基因。并对筛选出的基因从相应DNA 染色体数据库中抽提出基因下游紧邻序列,分析SECIS 元件。列出SECIS 结构的一级保守序列,保留含有类似于已知硒蛋白SECIS 结构的一级保守序列类型的基因,舍弃含其余SECIS 结构序列的基因。然后,编程检索具有Sec/Cys 配对的同源序列。最后取上步筛选得到的基因,逐条分析其起始码、阅读框中的TGA 码、终止码和SECIS 结构,以最终识别序列是否为硒蛋白。
实验结果计算机预测得到9 条硒蛋白。其中3 条来自疟蚊基因组,5 条来自家蚕基因组,1 条来自蜜蜂基因组。在这9 条基因中,只有谷胱氨肽S 转移酶(GST)已报导为一种微生物硒蛋白,其它均是新发现的硒蛋白。除GST 外,另2 条家蚕硒蛋白分别为A 型TP-结合转运蛋白(ABCA)和核VCP 相似蛋白。从家蚕GST、ABCA 和VCP的生化性质分析,硒在家蚕体内与氧化还原调节、硒储存和转远、以及细胞凋亡等过程有重要关系。疟蚊和蜜蜂基因组中发现的6 条硒蛋白基因,因缺乏足够信息,难以推断它们的生物功能。
本文对现有疟蚊、家蚕和蜜蜂基因组中的硒蛋白进行了重新注释,增添了编码区内部TGA 的非正常解码方式,纠正了经典基因预测程序的局限性所导致的无法预测硒蛋白的错误。扩大了我们对硒蛋白在不同物种中的分布的认识。为填补硒蛋白物种分布图作了相应的工作,也支持了硒蛋白基因分布的广泛性和零散性的观点。
使我们能对硒蛋白的进化有一个更准确的认识。本实验结果,为今后有关昆虫中硒的生物学研究提供了理论依据,是相应硒蛋白基因克隆和表达研究的前期工作,也是相关蛋白功能研究的一个开端。同时,硒蛋白基因序列的获得,也为进一步的蛋白质三级结构预测提供了数据。