论文部分内容阅读
基于新抗原识别的肿瘤免疫疗法中,对抗原表位能否被人类白细胞抗原(human leukocyteantigen,HLA)的准确预测是关键的一步。利用质谱鉴定的HLA多肽相对于利用亲和力实验鉴定的与HLA结合的多肽,包含更多细胞呈递抗原的信息。另外,特定细胞系或组织通过RNA测序得到的基因表达谱能够显著提高抗原呈递预测。尽管近年来积累了大量高质量的质谱鉴定的HLA多肽数据,但是只有很少一部分具有对应的表达量,因此难以把基因表达量整合到抗原呈递预测中。
本研究首先利用质谱数据建立了三个抗原表位模式序列识别模型,分别是位置得分特定异性矩阵(position score specific matrix, PSSM),位置加权的PSSM以及基于迁移学习的深度神经网络。经独立评估后我们选择了PSSM来识别抗原表位的模式序列,然后从公共数据库中收集了来源于不同组织的34个细胞系中具有配对RNA测序数据的HLA多肽组。基于这些质谱数据,我们为其中20个HLA-I等位基因建立了PSSM,然后建立逻辑斯蒂回归模型(logisticregression,LR)来学习PSSM分数,基因表达量以及多肽长度的关系,以此来预测多肽能否被细胞系呈递。通过比较不同HLA-I等位基因和细胞系中特征权重和偏差,我们发现在这三个变量中存在着相似的关系。为了确认这个发现,我们把来自不同HLA等位基因和细胞系的多肽的PSSM分数,基因表达量和多肽长度特征合并在一起训练了单一的LR模型,并且把它的表现与HLA和细胞系特异的LR模型比较。我们发现混合数据训练的LR模型表现和HLA与细胞特异的LR模型并没有显著差别,并且与PSSM模型相比性能有显著的提升。基于这个发现,我们利用从公共数据库收集到的180,000条HLA多肽数据进一步搭建了一个支持66个HLA分型的泛化的抗原呈递预测模型EPIP(Epitope Presentation Integrated Prediction)。
经大量的独立验证集评估,EPIP的平均0.1%PPV(positive predictive value)为51.59%,相对于目前的主流方法有显著提高,其中包括MixMHCpred(v2.0),NetMHCpan4.0-EL,NetMHCpan4.0-BA和MHCflurry(v1.2.2),它们的平均0.1%PPV分别为36.98%,36.41%,24.67%和23.39%。此外,EPIP在表位呈递预测和筛选免疫原性肿瘤新抗原上与目前不公开的基于深度学习的模型EDGE也是可比的。但是,EPIP的灵活性使得它能够应用在不同的场合,尤其是当用户希望把新的HLA多肽数据整合到EPIP中以支持新的HLA分型预测。EPIP可以从https://github.com/BGI2016/EPIP从获取。
总的来说,本研究开发了一个容易使用并且公开的抗原表位呈递预测工具,EPIP,这个工具整合了质谱鉴定多肽组和表达量的信息,其性能与其他现有的方法相比具有显著的提高。
本研究首先利用质谱数据建立了三个抗原表位模式序列识别模型,分别是位置得分特定异性矩阵(position score specific matrix, PSSM),位置加权的PSSM以及基于迁移学习的深度神经网络。经独立评估后我们选择了PSSM来识别抗原表位的模式序列,然后从公共数据库中收集了来源于不同组织的34个细胞系中具有配对RNA测序数据的HLA多肽组。基于这些质谱数据,我们为其中20个HLA-I等位基因建立了PSSM,然后建立逻辑斯蒂回归模型(logisticregression,LR)来学习PSSM分数,基因表达量以及多肽长度的关系,以此来预测多肽能否被细胞系呈递。通过比较不同HLA-I等位基因和细胞系中特征权重和偏差,我们发现在这三个变量中存在着相似的关系。为了确认这个发现,我们把来自不同HLA等位基因和细胞系的多肽的PSSM分数,基因表达量和多肽长度特征合并在一起训练了单一的LR模型,并且把它的表现与HLA和细胞系特异的LR模型比较。我们发现混合数据训练的LR模型表现和HLA与细胞特异的LR模型并没有显著差别,并且与PSSM模型相比性能有显著的提升。基于这个发现,我们利用从公共数据库收集到的180,000条HLA多肽数据进一步搭建了一个支持66个HLA分型的泛化的抗原呈递预测模型EPIP(Epitope Presentation Integrated Prediction)。
经大量的独立验证集评估,EPIP的平均0.1%PPV(positive predictive value)为51.59%,相对于目前的主流方法有显著提高,其中包括MixMHCpred(v2.0),NetMHCpan4.0-EL,NetMHCpan4.0-BA和MHCflurry(v1.2.2),它们的平均0.1%PPV分别为36.98%,36.41%,24.67%和23.39%。此外,EPIP在表位呈递预测和筛选免疫原性肿瘤新抗原上与目前不公开的基于深度学习的模型EDGE也是可比的。但是,EPIP的灵活性使得它能够应用在不同的场合,尤其是当用户希望把新的HLA多肽数据整合到EPIP中以支持新的HLA分型预测。EPIP可以从https://github.com/BGI2016/EPIP从获取。
总的来说,本研究开发了一个容易使用并且公开的抗原表位呈递预测工具,EPIP,这个工具整合了质谱鉴定多肽组和表达量的信息,其性能与其他现有的方法相比具有显著的提高。