论文部分内容阅读
传统致病菌耐药性的增强和新型致病菌的出现,使得传染病越来越成为人类健康的重大威胁。人类迫切需要新型抗生素,而基因组计划则提供了一个抗生素开发的新策略。本论文利用生物信息学技术,分析了所有已测序致病菌基因组,建立了一个候选抗生素药靶识别系统。我们相继发展了四个相关生物信息学方法并最终整合进系统中。第一,建立了一个分布式BLAST系统,这是一个松耦合的异构并行系统,在任务级上实现BLAST的并行化,具有强大、经济、移植性好、伸缩性强的特点。第二,综合考虑了GC含量差异、二核苷酸丰度差异和密码子频率差异三种DNA组成分析指标,利用迭代的判别分析方法对已知的致病岛数据进行学习,得到一个线性的识别模型,用于识别致病岛及其他组成异常基因簇。第三,从文献和数据库中收集已知的致病菌毒力因子,建立了一个毒力因子数据库,用于大通量地识别细菌基因组中相关基因。第四,开发了一个文献挖掘工具MedBlast,能够搜索与给定序列相关的文献,初步测试表明其敏感性达到75.1%。基于这些分析方法和工具,再结合其它多种技术,我们建立了一个候选抗生素药靶识别系统。该系统利用了三种信息:致病性、保守性和亚细胞定位。首先,细菌的致病相关基因是一类重要的候选药靶,我们利用迭代判别分析方法对基因组进行DNA组成分析,以识别可能的致病岛等基因簇,利用毒力因子数据库识别毒力因子。这两个方法分别基于组成分析和同源搜索,相互补充从而能够更好地识别致病相关基因。其次,多个基因组中保守的基因很可能是细菌生存所必须的,又是广谱抗生素药靶,因此也是一类重要的候选药靶。我们利用Clusters of Orthologous Groups和KEGG Orthology数据库,通过直系同源关系识别多物种中高度保守的基因。第三,我们利用生物信息学分析方法识别外<WP=3>膜蛋白和脂蛋白,这些蛋白质其特殊的亚细胞定位也成为良好的药物及疫苗靶标。综合所有这些方法得到初步的候选药靶后,为了避免开发的抗生素对人类产生毒副作用,我们利用人类蛋白组对药靶进行了削减,去除了与人类蛋白质有明显同源的序列,得到了最终的候选药靶。最后,我们采用MedBlast和Gene Ontology Annotation数据库对这些药靶进行了再注释,以方便进一步的分析。结合数据库技术和Web技术,我们成功建立了一个候选抗生素药靶识别系统。该系统是一个创新的药靶识别系统。对幽门螺杆菌(H.pylori)26695株的测试分析表明,该系统能够有效识别出大量有潜力的抗生素药靶,包括持家蛋白质、致病岛、毒素、耐药性相关蛋白质、外膜蛋白、铁摄取蛋白质等,是一个有价值的生物信息学分析系统。该系统还有一些方面可以进一步研究完善,我们相信,把整个系统和实验工作结合起来,将会对新型抗生素的研发、为人类健康事业的发展作出贡献。