论文部分内容阅读
背景:前列腺癌是男性中第二常见的癌症和第五大癌症死亡原因。2020年全球有近140万新发病例和超37万死亡病例。随着社会经济的发展、预期寿命的延长和逐渐西化的生活方式,中国的前列腺癌发病率大幅增加,且有年龄前移的表现。因此,迫切需要进一步了解前列腺癌的基因差异表达情况,对前列腺癌的致癌机制进行深入研究。传统的实验方法实验周期较长,成本较高,很难满足当前的研究需求。单细胞RNA测序允许在单细胞分辨率下进行基因表达的定量测量和比较,为研究癌组织与癌旁组织中看似同质的细胞群中的不同基因表达模式提供了机会。但是常规的生物信息学分析方法只能进行差异基因与暴露之间的常规关联分析,因此很难区分转录调控关系的扰动与真正的生物变异。靶向最大似然估计(Targeted Maximum Likelihood Estimation,TMLE)模型是一种基于最大似然估计的双稳健的半参数估计方法,用于因果关联分析。该方法包含两阶段估计,一是借助super learner算法建立自适应的组合模型,二是靶向修正组合模型以达到局部最优,建立最优反事实预测模型估计平均因果效应。该方法能够适应零膨胀与高维的单细胞测序数据,可用于筛选对于前列腺癌发生具有因果效应的基因。目的:针对以上问题,借助单细胞RNA测序数据的优势,在不同类型的细胞群中将因果关联分析方法应用于基因对前列腺癌发生的因果效应识别,为实验研究验证前列腺癌的差异表达基因与致病机制、研发靶向治疗药物等提供参考。方法:本研究对来自3位前列腺癌患者的癌组织与癌旁组织使用10X Genomics进行单细胞RNA测序,获得了 56893个细胞,26392种基因的表达量。以细胞为样本单位构建矩阵,以基因为变量,将来源于癌组织的细胞定义为“病例”组、来源于癌旁组织的细胞定义为“对照”组,由此构建56893行、26392列的基因表达量矩阵。基于上述大数据矩阵,首先进行常规的生物信息学分析,对单细胞RNA测序数据进行整合,预处理去除批次效应后进行细胞聚类与细胞注释,借助KEGG富集分析定位发生前列腺癌的关键细胞群,使用SCDE方法分析细胞群内来源于癌组织与癌旁组织的细胞之间的差异表达基因。然后进一步使用TMLE模型筛选对于前列腺癌的发生具有因果效应的基因。对于潜在因果基因,使用KEGG富集分析寻找可能影响前列腺癌发生的信号通路,探索致病机制。结果:1.使用生物信息学方法分析差异表达基因。①识别出20个细胞亚群并进行细胞类型注释。然后借助KEGG富集分析定位前列腺癌发生过程中的三个关键细胞群:1型前列腺管腔上皮细胞群、2型前列腺管腔上皮细胞群与CD8+T细胞群。②使用SCDE方法分别对上述细胞群进行分析,识别细胞群内来源于癌组织的细胞与癌旁组织的细胞之间的差异表达基因。在1型前列腺管腔上皮细胞群中发现119个差异表达基因,在2型前列腺管腔上皮细胞群中发现40个差异表达基因,在CD8+T细胞群中发现68个差异表达基因。2.使用靶向最大似然估计模型筛选对前列腺癌的发生具有因果效应的基因。在1型前列腺管腔上皮细胞群中发现66个潜在因果基因,在2型前列腺管腔上皮细胞群中发现32个潜在因果基因,在CD8+T细胞群中发现47个潜在因果基因。在以上三个细胞群中,共有的潜在因果基因为CRISP3,且平均因果效应较大。1型前列腺管腔上皮细胞群与2型前列腺管腔上皮细胞群有7个共有的潜在因果基因,其中5个为明确的前列腺癌标志基因。3.在潜在因果差异表达的基础上,进行富集分析。1型前列腺管腔上皮细胞群的潜在因果基因富集到了精氨酸和脯氨酸代谢、内质网中的蛋白质加工、神经营养蛋白信号通路、矿物质吸收、PPAR信号通路、癌症中PD-L1的表达及PD-1检查点通路共6个癌症相关通路;2型前列腺管腔上皮细胞群的潜在因果基因富集到了粘着斑、MAPK信号通路、PI3K-Akt信号通路、ECM-受体交互通路共4个癌症相关通路;CD8+T细胞群的潜在因果基因富集到了抗原加工与呈递、T细胞受体信号通路和白细胞介素17信号通路共3个癌症相关通路。结论:1.常规的生物信息学分析方法只能得出差异表达基因与暴露之间的关联性分析,得到的差异表达基因数量较多,不利于实验验证。本研究在常规生信分析方法的基础上,进一步使用TMLE模型筛选对前列腺癌发生具有潜在因果效应的基因,有效聚焦了前列腺癌的重点致癌基因,为实验研究缩小目标范围,从而减少实验成本与实验周期,提高转化为临床研究的成功率,为基因组学中的因果关联分析研究提供了方法借鉴。2.本研究通过分析细胞群之间共有的潜在因果基因,发现了两个可能对前列腺癌的发生具有重要意义的基因VGLL3与Lnc-HPS3-3。为进一步研究前列腺癌的致病机制并开发新的治疗靶点提供了参考。3.本研究发现1型前列腺管腔上皮细胞群富集到通路的18个潜在因果基因中,有15个基因目前已有研究证实与癌症相关,这些基因可能通过改变代谢特征导致细胞癌变。2型前列腺管腔上皮细胞群富集到通路的6个潜在因果基因中,有3个基因目前已有研究证实与癌症有关,这些基因可能促进了癌细胞的迁移。CD8+T细胞群富集到通路的16个潜在因果基因中,有8个基因目前已有研究证实与癌症相关,并可能协助癌细胞免疫逃逸。本研究对前列腺癌的病理机制细化和精准治疗的开发具有重要意义。