论文部分内容阅读
CRISPR-Cas系统是细菌的一种适应性免疫系统,可通过核酸酶靶向特征性核酸片段来抵抗外源基因入侵。随着CRISPR-Cas系统抵御外源基因机制被逐步解析,基于该系统已经开发了一种广泛应用的基因组编辑工具。Lactobacillus paracasei是一种应用广泛的乳酸菌,具有重要的科研价值。目前CRISPR-Cas系统在乳酸菌当中的应用具有一定限制,但前景广阔。本文选择L.paracasei为研究对象,利用生物信息学分析结合生物学实验的方法,对其CRISPR-Cas系统进行深入分析,重点研究了CRISPR干扰阶段相关元件,最后预测并验证了L.paracasei中最广泛存在的Cas9蛋白所识别的PAM序列。本文的主要结论如下:首先,对NCBI数据库中的58株L.paracasei的CRISPR-Cas系统进行查找和定位,并对重复序列(repeat)和间隔序列(spacer)进行分析。结果表明,CRISPR-Cas系统在L.paracasei中发生率约为43%,大多为Ⅱ-A型CRISPR-Cas系统。在相同亚型内,重复序列的长度、核苷酸序列和二级结构均相对保守。通过对间隔序列的比对分型可以将L.paracasei分为5种独特的I型CRISPR模式和16种独特的Ⅱ型CRISPR模式。原间隔序列查找结果表明,间隔区靶向的噬菌体基因多为与噬菌体复制生存相关基因。其次,对L.paracasei中Ⅱ型CRISPR-Cas系统干扰阶段元件进行鉴定并深入分析,这对基因编辑工具的开发尤为重要。结果表明,tracrRNA在CRISPR位点上的位置是相对保守的,均存在于cas9与cas1基因之间,转录方向与cas基因相反。共发现六种独特的tracrRNA序列,均能形成稳定的二级结构,差异主要发生在终止子附近。通过分析原间隔序列侧翼,对Cas9蛋白识别的PAM序列进行预测,多数蛋白识别的是A-rich序列。最后,选择L.paracasei中最广泛存在的Cas9蛋白作为研究对象,通过双荧光报告系统对PAM序列进行实验验证。将Cas9蛋白进行密码子优化后使其可以在HEK293T细胞中正常表达。将CGAA作为接头连接crRNA和tracrRNA,并去除tracrRNA的最后一个发夹(hairpin),设计后的sgRNA和优化后的Cas9蛋白基因序列克隆到同一载体中表达。以PAM预测结果作为参考建立PAM文库,共25种序列,结果表明5’-TCAAAA-3’和5’-TGTAAA-3’是lpCas9所识别的有效PAM序列。本文的研究结果为L.paracasei的CRISPR-Cas系统研究提供大量数据基础,对商业菌株筛选、菌株优良性状改造以及基因编辑工具开发具有重要意义。