论文部分内容阅读
考虑到本实验室和Genbank中已有的大量来自于海洋生物的EST,构建一个系统用于EST分析,对海洋生物功能基因组进行自动注释的系统具有重要意义。当前本地EST分析系统整合了大约40000条ESTs,这些EST分别来自于各个不同的海洋生物,如文昌鱼(Branchiotomabelcher),海马(Hittocampusqudableeker),水母(Cyaneacapillata),赤魟(Dasyatisakajei)。为了分析这些数据,首先,我们针对某一种生物或者是组织的EST进行了聚类,得到一致序列(consensussequences);然后,利用这些一致序列对蛋白数据库,功能域(domain)数据库进行相似性搜索,得到功能注释;更进一步的,我们还针对二级结构,三级结构进行了初步预测,同时还将EST中的基因映射到了已经研究清楚的Pathway中;另外,利用基因本体(geneontology)对文库中的序列进行标准的功能注释;最后,还利用了Intemet上的其它数据资源进行了深入的数据挖掘。
以上分析流程都使用类似于BIOPIPE的架构进行管理,而数据库则采用BIOSQL作为关系数据库模型的框架,BIOSQL实现了对象——关系数据库的存储模式,生物序列数据可以利用这一框架协同Bioperl-db模块进行方便的数据存储操作。用户可通过Web界面浏览分析结果,并进行如下操作:1、检索整个文库的注释信息;2、根据特定的索引号检索某一致序列的注释结果;3、使用NCBI-BLAST软件对文库中的序列进行相似性比对的查询。
经过分析,从大量的EST中将得到规模相对较小但更有价值深入研究的序列。我们还结合对Pathway映射和比较基因组研究的结果,对Pathway的演化进行了初步研究。同时我们还针对有价值的基因和注释展开了深入的分析,并拟结合实验的手段验证其功能。