论文部分内容阅读
第一部分 基于单细胞转录组测序分析胰腺癌导管细胞异质性目的:胰腺导管细胞腺癌(PDAC)是一类恶性程度高,患者生存预后率极低的消化系统肿瘤。在这里,我们旨在利用单细胞转录组测序(scRNA-seq)分析PDAC中导管细胞的异质性并描绘其分化轨迹。方法:基于网络数据库,我们利用scRNA-seq分析了24例PDAC肿瘤样本和11例正常胰腺样本的单细胞转录组图谱。首先,使用Seurat软件包对n Feature_RNA<200、线粒体基因表达量≥15%、核糖体基因表达量≥50%的细胞进行剔除;其次,利用“Doubletfinder”对过渡态细胞或双细胞进行去除;再次,分别通过“Normalize Data”和“Run Harmony”软件包对数据进行标准化和去除因测序技术所造成的批次效应,从而获得单细胞转录组表达矩阵。接下来,我们利用“Find Variable Features”计算高度可变的基因并进行主成分分析(PCA),并选择前10个主成分进行UMAP非线性降维分析;而后利用Presto包中“Wilcoxauc”函数确定每一群中高表达的基因,结合文献报道及CELLMarker网站基于每个细胞群体间高度表达的特异性基因对其进行定义。最后,为进一步描绘导管细胞的异质性及其分化轨迹,我们将来源于肿瘤组织和正常胰腺组织中的导管细胞提取出来重新聚类分析。首先,采用组织贡献比例衡量导管细胞亚群在组织间的差异;其次,通过infer CNV包计算各导管细胞亚群间染色体拷贝数变化(CNVs)情况来衡量导管细胞群间的恶性程度;再次,基于各导管细胞亚群间表达的差异基因及基因集富集分析来定义其状态;最后,利用Monocle2重建导管细胞的分化轨迹,发现导管细胞状态的转变。结果:通过对24例PDAC肿瘤样本和11例正常胰腺样本的scRNA-seq数据的预处理(剔除无效细胞样本、标准化、去除测序批次效应),我们最终获取了121,883个细胞及其转录本。接下来,利用PCA、UMAP等降维分析并结合各群体间特异性表达的基因,我们最终确定了9个细胞群体,即腺泡细胞、导管细胞、B淋巴细胞、T淋巴细胞、胰腺内分泌细胞、内皮细胞、成纤维细胞、髓样细胞和周细胞。接下来,我们提取了来自于肿瘤组织和正常胰腺组织中共计33,553个导管细胞进行重新聚类分析。组织贡献比例显示:cluster1、6导管细胞群几乎来源于正常胰腺组织,cluster3、4和5导管细胞群多富集于肿瘤组织,虽然cluster2导管细胞群的构成多为正常胰腺组织,但仍有中等比例的细胞来源于肿瘤组织;通过计算各导管细胞群间CNVs情况,我们发现多来自于正常胰腺组织中的cluster1、6导管细胞群几乎没有发生CNVs,而显著富集于肿瘤组织的cluster3、4和5导管细胞群,显示出较高水平的CNVs,且来自于部分肿瘤组织的cluster2导管细胞群也展示出3条染色体的拷贝数变化。最后,各导管细胞亚群间特异性表达的基因及富集分析结果进一步证实,cluster1、6导管细胞群多行使正常胰腺细胞的功能,cluster3、4和5导管细胞群多与细胞的恶性增殖和远处转移相关;而cluster2导管细胞群多具备肿瘤干细胞样特性。基于以上发现,我们推测scRNA-seq可能捕获了PDAC肿瘤进展过程中肿瘤干细胞样导管细胞的主要转化过程,而后我们采用monocle2对导管细胞的伪时序分析证实了这一猜想,即PDAC肿瘤进展过程中具有肿瘤干细胞特性的导管细胞向侵袭性导管细胞的转变过程。结论:研究结论如下:1.通过对PDAC肿瘤样本和正常胰腺样本的scRNAseq分析,我们描绘了胰腺导管细胞的异质性;2.通过对各导管细胞群间CNVs及功能富集分析表明了各导管细胞群间的恶性程度及状态;3.通过对各导管细胞群间分化轨迹的分析,揭示了肿瘤干细胞样导管细胞向具有侵袭潜能的恶性导管细胞的演变过程。总之,我们通过scRNA-seq分析展示了导管细胞的异质性和分化轨迹,这些结果可以在一定水平上诠释肿瘤进展过程中转录组图谱的变化,或许可以帮助我们更好地理解人类疾病。第二部分 整合多个数据库筛选胰腺癌干细胞相关的预后基因并构建风险预测模型目的:胰腺癌干细胞(PCSCs)被认为是导致胰腺导管细胞腺癌(PDAC)发生和转移的重要因素之一。在这里,我们围绕上一章节单细胞转录组测序的分析结果,接下来,结合多个数据库的整合分析,旨在筛选出与PDAC肿瘤干性相关的预后基因,并探索其临床价值。方法:基于上一章节PDAC单细胞转录组测序分析结果,我们发现cluster2导管细胞亚群具有肿瘤干细胞相关特性。接下来,我们利用Edge R差异分析软件包分析了cluster2导管细胞亚群中来源于肿瘤和正常胰腺组织的转录本表达差异,并结合Genecards数据库,筛选出202个肿瘤干细胞相关的差异表达基因。其次,联合癌症基因组图谱(TCGA)-PDAC数据集整合了202个肿瘤干细胞相关差异基因的表达谱及其对应的患者生存预后信息,利用最小绝对收缩和选择算子(LASSO)和Cox回归模型鉴定出具有潜在预后价值的5个肿瘤干细胞相关的基因并构建了风险预测模型;其中,高-低风险队列人群依据风险分数的中位值定义,“survminer”和“time ROC”软件包分别用于Kaplan-Meier生存分析和模型ROC曲线的绘制;再次,“Maftools”软件包被用来研究两组风险人群间体细胞突变特征的差异,变异事件率观测的离散独立统计量控制(DISCOVER)精确检验被用来展示每组风险队列人群中突变基因的共现和互斥现象。最后,基于人类蛋白质图谱数据库(HPA)进一步验证了这5个预后基因在PDAC肿瘤和正常胰腺组织中蛋白表达水平。结果:将cluster2导管细胞亚群中来源于肿瘤与正常组织的转录本差异表达分析结果结合Genecards数据库,我们最终筛选得到202个差异表达的肿瘤干细胞相关的基因。随后,基于TCGA-PDAC数据集,利用数学模型鉴定出5个肿瘤干细胞相关的预后分子并构建风险预测模型。其中,Kaplan-Meier生存曲线和曲线下面积(AUCs)证实了我们风险模型预测的准确性,同时表明高危组患者的总体生存率显著低下(Pvalue<0.0001),这些结果与来自于基因表达综合数据库(GEO)中的两个独立外部验证数据集分析结果保持较高一致,且预测模型在临床亚组分析中的结果进一步展示其普遍适用性,随后,肿瘤突变负荷结果展示了两组风险队列人群间的差异,即高风险组人群发生突变事件的频率显著高于低风险组,且Kras基因突变在两组风险人群中均占据第一的位置,并提示患者不良的生存预后。最后,我们通过HPA数据库探索了这些基因在PDAC肿瘤和正常胰腺组织中的蛋白表达水平,除了未检索到的CXCL10外,我们发现LY6D和MET在肿瘤组织中的表达明显高于正常胰腺组织。相反,在肿瘤组织中检测到低水平的RIC3和GMNN表达。结论:综上所述,我们的研究发现:1、围绕上一章节单细胞转录组测序分析结果并结合多个数据库的整合分析,我们鉴定出5个与肿瘤干细胞相关的预后基因,并构建了风险预测模型,Kaplan-Meier生存曲线和ROC曲线很好地评估了我们模型的预测准确性。2、风险模型在外部独立数据集的验证以及临床亚组分析中的应用,进一步反映了我们预测模型的普遍适应性和可靠性。3、不同风险人群间体细胞肿瘤突变负荷的差异,将为临床决策者提供个体化人群治疗的分类器。总之,我们探索了PDAC肿瘤干性相关的预后基因及其潜在的临床价值,这些结果可能为靶向PCSCs和实现癌症患者个体化治疗提供指导。