论文部分内容阅读
成簇规律间隔短回文重复(CRISPR) -CRISPR相关蛋白(Cas)是细菌和古细菌的适应性免疫系统,这些系统可以被改造成强大的基因组编辑工具而受到广泛关注。CRISPR-Cas系统会保留入侵者的一小段遗传物质(被称为间隔序列)以抵御入侵者的再次感染。组成这个免疫系统的Cas蛋白以及编码Cas蛋白的cas操纵子结构具有极其丰富的多样性。描述cas操纵子结构的关键一步是cas基因(或Cas蛋白)的准确识别。而且,随着新测序的细菌和古细菌基因组的不断增加,极有可能识别出新的Cas蛋白,这些新的Cas蛋白不仅可以为基因组编辑工具提供候选物,也有助于更深入地理解这个免疫系统。因此,我们开发了 HMMCAS,一个识别Cas蛋白的网络服务。这个网络服务收集了所有已知的Cas蛋白家族隐马尔可夫模型(HMMs),使用HMMER3.1中的hmmscan相似性搜索算法快速准确地识别Cas蛋白。HMMCAS也可以识别融合蛋白比如细菌Candidatus Chloracidobacterium thermophilum B (Cab. thermophilum B)中的 Cas1-Cas4 融合蛋白。这个网络服务也可以发现潜在的cas操纵子并指出cas操纵子所属类型。HMMCAS 的网址为 http://i.uestc.edu.cn/hmmcas/。接下来,我们利用相似性搜索识别了细菌和古细菌参考基因组中的cas基因,通过基因上下文检查找到了由cas基因组成的潜在的cas操纵子。我们依据CRISPR-Cas系统的标签基因将潜在的cas操纵子分类。我们发现与Ⅱ型、Ⅲ型、Ⅳ型和Ⅴ型系统相比,Ⅰ型系统是分布最广泛、数量最多的CRISPR-Cas系统。我们也重点关注了 Ⅱ型系统的cas位点,根据Ⅱ型cas位点的结构组成,新增加了Ⅱ-A1、Ⅱ-BI、Ⅱ-C1、Ⅱ-C2、Ⅱ-D五种亚型。从cas位点组成来看,我们认为Ⅱ-A1是退化了的Ⅱ-A系统,与Ⅱ-A相比缺少编码Cas2蛋白的基因;Ⅱ-B1是退化了的Ⅱ-B系统,相比缺乏编码Cas1、Cas2两个蛋白的基因;Ⅱ-C1和Ⅱ-C2是退化了的Ⅱ-C系统,分别缺乏编码Cas2和Cas1蛋白的基因。Cas9蛋白的系统发育树也可以说明这样的进化关系。特别地,亚型Ⅱ-D编码的Cas蛋白尽管没有形成单一的分支,但都与亚型Ⅱ-C、Ⅱ-C1、Ⅱ-C2的Cas9蛋白聚在一起,说明亚型Ⅱ-D可能是退化了的Ⅱ-C系统,也可能是退化了的Ⅱ-C1、Ⅱ-C2系统。此外,我们也发现Ⅱ型系统分别与Ⅰ、Ⅱ、Ⅲ、Ⅴ型系统存在融合。最后,我们通过注释位于cas位点但功能未知的基因,发现cas位点具有编码毒蛋白、抗毒蛋白以及argonaute (Ago)蛋白的基因。具体地,我们发现4个毒蛋白家族:AAA21、AbiEii、HicA 和 Fic; 4 个抗毒蛋白家族:PhdYeFM、MazE、Unstab和BrnA。我们发现在抗毒蛋白基因下游往往存在毒蛋白基因,这样的组织结构有利于细菌生产更多的抗毒蛋白。对于所有的4个抗毒蛋白家族,我们在cas位点也发现了毒蛋白基因。这些发现为免疫-休眠/自杀偶联假说提供更多的证据。我们也发现这种偶联不仅存在于Ⅰ型CRISPR-Cas系统中,也存在于Ⅲ型系统中。此外,我们也发现细菌和古细菌的cas位点也编码Ago蛋白,而且这些cas位点都属于Ⅲ型CRISPR-Cas系统。