论文部分内容阅读
以微阵列、二维电泳、二维高压液相和蛋白质谱等技术为代表的转录组和蛋白质组高通量实验技术能够产生海量的数据。这些数据经过预处理后,通常以一组具有表达量等具体数据的基因或者蛋白质的列表的形式给出。对这些基因或蛋白质进行注释是对试验所得的具体数据进行后期处理的基础和前提条件。对大量基因和蛋白质进行注释,人工显然无法完成;而目前能够获得的各种免费或商用软件的注释往往不很全面。在比较了多个生物工作者常用的生物网站的批量注释后,发现有的生物网站的注释内容太少,不能满足生物工作者对注释内容的要求;有的生物网站的注释风格不适合大量相关蛋白质或基因间的比较阅读;有的生物网站对能够提供查询的蛋白质或基因的登录号的要求比较苛刻,限制了生物工作者对网站的使用。
基于以上的对比分析,本工作开发了基因和蛋白质的批量注释系统UBROAD(UnifiedBatchRetrieverOfAnnotationData)。该注释系统整合了UniProt,NCBI,BIND等六个基因和蛋白质的数据源,注释结果含有三十多项可供选择的注释内容如不同登录号、基因和蛋白质的基本信息、功能分类、相互总用等,保证了注释内容的全面性。UBROAD注释系统支持genename,genbankID,UniProtAccessNumber等七种关键字混合查询,使生物工作者在提交登录号时有更多的选择。UBROAD注释系统提供微软电子表格的形式(exl)供使用者下载注释结果,这种表格形式提供的注释结果的结构简单清晰,可以使用微软电子表格(exl)提供的各种方法对注释结果进行操作,从而实现相关蛋白质或基因间的比较阅读。
此注释系统可以通过访问网页http://www.bioscience.org.cn/UBROAD进行免费使用。