论文部分内容阅读
识别蛋白编码基因是基因组研究中的重要课题之一。特别是随着越来越多的物种被测序,这一课题更加重要。面对急剧膨胀的基因组序列,传统生物学实验已经无法满足需要。因此,生物信息学的高通量方法显得尤其重要。EST(序列表达标签)是对随机选取的cDNA克隆进行测序的一部分,理论上EST不含内含子,代表了一个完整基因的一部分。EST数据量巨大且还在迅速增长之中,是一种宝贵的序列资源。利用EST对基因组进行蛋白编码基因的预测和注释是重要的研究课题。但EST序列的质量问题和基因组序列的复杂性使得这一工作并不容易开展。本研究首先了解了EST序列的产生过程和序列特点,深入分析了可能影响EST序列质量的因素。包括外源序列、基因组DNA序列、嵌合EST序列,mRNA前体序列、随机引导序列、内部引导序列等等。同时对基因组序列也进行了深入分析,包括重复序列成份、假基因、多拷贝基因、重叠和嵌合基因、选择性剪接等等。在此基础上,本研究考虑了EST与整个基因组进行序列比对和定位可能产生的情况,针对这些情况制订了对策和研究方案,具体是:先对EST去除外源污染,然后将其定位到基因组上,并对比对结果采取针对性的措施加以检验;对保留下来的EST,根据相互之间的联系进行聚类,最后预测出基因结构,并利用有向无环图(Directed Acyclic Graph)和期望最大值算法(Expectation-Maximization)得到可能的选择性剪接。本研究取得了令人满意的结果,测试表明,研究中制订的措施是有效的。本研究还设计了一个覆盖整个基因组的基因注释系统,建立了一个包含有约6000万条目的数据库,支撑相关的web服务(http://bioinfo.hust.edu.cn)。