论文部分内容阅读
噬菌体展示(phage display)是一种基于体外展示的高通量筛选技术,通常含有数十亿条多肽的噬菌体展示文库经过迭代的亲和选择(生物淘选,biopanning),使具有特定功能的多肽或蛋白质配体得以高效富集。近年来,二代测序与噬菌体展示技术组合,形成了二代噬菌体展示技术(next-generation phage display,NGPD),极大地助力于淘选结果分析。噬菌体展示技术已广泛应用于基础与应用研究中,如表位(epitope)预测与蛋白质互作网络分析、疾病的诊断与治疗产品、药物传递产品、及新型生物材料与无机功能材料的开发等。噬菌体展示文库的随机性分布对于配体淘选至关重要。随着测序技术的发展,二代测序可用来检测多样性为105-106的文库质量。然而,二代测序主要用于基因组测序分析,大多数可用的软件都是为装配基因组而编写,缺乏专门用于分析噬菌体展示文库的软件,也未能大规模评估文库质量。因此,噬菌体展示领域亟待开发分析和评估文库质量的标准流程。由于噬菌体展示淘选体系与文库内在的原因,使得淘选数据中除了靶标特异性结合肽外,还混杂着选择或增殖相关的靶标无关肽(target-unrelated peptides,TUPs),而研究人员难以将这两类多肽区分开来。计算方法和工具具有高效率、低成本的优点,因此借助生物信息学手段来识别噪声序列发展成了噬菌体展示领域的重要方向。为了响应本领域的需求和发展,我们开发了全新的双端测序处理平台,专门用于噬菌体展示文库的分析,还提出了评估和描述文库多样性的标准分析流程。为了消除淘选结果中的靶标无关肽序列,我们进一步开发了一系列诊断靶标无关肽序列的计算工具。此外,我们利用噬菌体展示技术及生物信息学工具预测了美妥西单抗与CD147的相互作用位点。本课题的主要研究内容如下:1、开发了双端测序处理和评估文库多样性的分析流程。我们在单端测序处理软件上进行了改进,提出了双端测序处理程序,并使用新开发的分析流程研究了初始文库和化学修饰文库的组分偏倚。2、改进和完善了基于生物淘选数据库的靶标无关肽报告工具。维护并更新生物淘选数据库,除了传统的噬菌体展示数据,我们还收录了大规模的二代噬菌体展示数据,整合了一系列靶标无关肽检测和报告工具,开发了架构更为合理、数据更为完备的淘选数据银行(Biopanning Data Bank,BDB),提供了一个类似于循证医学的平台,帮助实验生物学家排除噬菌体展示数据中潜在的靶标无关肽。3、提出了基于机器学习的靶标无关肽预测工具SABinder和PhD7Faster 2.0。从BDB数据库和已报道的文献中收集数据集,基于支持向量机(Support vector machine,SVM)开发了预测链亲和素结合肽(streptavidin-binding peptide,SBP)工具—SABinder。还利用支持向量机改进了 PhD7Faster,升级其为2.0版本,用于预测PhD-7噬菌体展示文库中增殖相关靶标无关肽。SABinder和PhD7Faster 2.0开发成了网络程序,提供免费的在线预测服务。此外,还开发了对应的单机版工具,方便用于大、小规模数据集的预测分析。4、升级了靶标无关肽检测工具包SAROTUP。我们收集了许多新的靶标无关肽模体序列,并整合到TUPScan工具中,并将3个基于支持向量机的工具,即SABinder、PhD7Faster 2.0和PSBinder,集成到最新版本的SAROTUP中。我们还开发了用于处理大规模生物淘选数据的图形用户界面版和命令行版的SAROTUP应用程序,并将其发布为开源软件包,实现将SAROTUP2.0更新升级为SAROTUP 3.0。SAROTUP的网页也经过了重新设计,用户可以通过http://i.uestc.edu.cn/sarotup3 免费访问 SAROTUP。5、基于噬菌体展示与分子对接研究metuximab与CD147分子的相互作用位点。用美妥西单抗(metuximab)淘选PhD-12噬菌体展示文库,并采用同源建模(homology modeling)、分子对接(molecular docking)、基于噬菌体展7示的信号解析等技术预测美妥西单抗在CD 147上的表位。综上,本课题围绕噬菌体展示开展生物信息学研究,开发和改进了一系列噬菌体展示数据计算分析工具。最后利用噬菌体展示技术,结合生物信息学分析方法进行metuximab与CD147分子相互作用位点解析。总之,本课题开发的计算资源和工具将加快基于噬菌体展示的新药、新疫苗、新诊断试剂、新材料等相关基础与应用研究,具有重要的科学意义与广阔的应用前景。