论文部分内容阅读
胰腺癌已成为严重威胁人类健康的癌症之一,其5年生存率仅4-7%。近年来,胰腺癌的诊治手段虽然得到了不断的发展,但是,由于其早期症状的隐匿性,大多数患者在初诊时已发生远处转移,失去了早期手术治疗的最佳时机。随着下一代测序技术的发展,生物信息学、多组学和机器学习等方法已成为精准医学研究的重要发展方向。因此,探索、鉴定及验证新的理想生物标志物将会对胰腺癌的诊治具有重要意义。目的1.基于生物信息学挖掘可能在胰腺癌发生和发展中发挥重要作用的生物标志物,并在细胞和组织中进行实验验证。2.结合多组学、蛋白互作网络和免疫微环境分析,探索这些标志物与胰腺癌间的内在关联,为其发生、发展过程的研究提供新的思路。3.利用机器学习构建诊断模型,为胰腺癌的诊断及个体化治疗提供理论依据。方法1.胰腺癌相关数据集的检索、下载及预处理:在GEO、ArrayExpress、TCGA、GETx和ICGC数据库中系统检索并筛选与胰腺癌相关的数据集。其中,基因芯片数据均下载CEL原始数据,转录组高通量测序(RNA sequencing,RNA-Seq)数据均下载表达计数(counts)矩阵。对下载后的数据进行质量控制、背景校正、归一化、基因注释等预处理。其中,多阵列对数健壮算法(log scale robust multi-array analysis,RMA)用于基因芯片的归一化,TPM(Transcriptspermillion)用于 RNA-Seq 数据的标准化,Combat 函数用于不同数据间批次效应的矫正。2.基于生物信息学筛选胰腺癌的潜在生物标志物:1)加权基因共表达网络分析(WGCNA):运用WGCNA构建胰腺癌的无尺度网络,寻找与其发生发展密切相关的生物标志物,主要通过筛选软阈值、裁剪基因模块和基因模块与临床表型的相关分析实现。并对相关模块中的基因进行GO、KEGG富集分析,以阐明这些基因参与的细胞信号通路以及这些通路在胰腺癌发生过程中的可能作用。2)确定胰腺癌的关键基因:通过Cytoscape 3.7.2软件对关键模块中的基因构建基因-基因互作网络,根据连接度degree确定胰腺癌的Hub基因。在8个独立的基因芯片数据中分别对Hub基因进行差异表达分析验证后,并在RNA-Seq数据中进行验证,从而得到关键基因。为进一步验证其在胰腺癌发生发展过程中的作用,采用Cox回归分析关键基因对患者预后的影响;最后,利用CCLE数据中的数据,分析关键基因在胰腺癌、肺癌、前列腺癌等30种癌症中的表达情况,判断关键基因在胰腺癌细胞系中的表达水平。3.基于分子生物学的实验验证:1)实时荧光定量逆转录PCR(qRT-PCR):引物通过 primer 6.0 设计,采用 qRT-PCR 检测TSPAN1,TMPRSS4,SDR16C5和CTSE在PANC-1、SW1990和AsPC-1胰腺癌细胞系中的表达,相对表达丰度通过△Ct=目的基因的Ct值-内参基因(GAPDH)的Ct值计算。2)免疫组织化学(IHC):选择70对胰腺癌组织和癌旁组织,利用IHC技术检测关键基因的蛋白表达水平,并由两名病理学专家独立对染色结果进行判读,采用的半定量评分公式是:H-score=∑pi(i+1);最后,通过配对t检验比较其表达蛋白在胰腺癌组织和癌旁组织中的表达。4.探索关键基因与胰腺癌之间的内在关联:1)基因突变、拷贝数变异和DNA甲基化分析:利用TCGA中的数据分析TSPAN1,TMPRSS4,SDR16C5和CTSE的突变图谱和拷贝数变异情况,并对拷贝数变异与基因表达进行Pearson相关分析,对DNA甲基化数据进行质控后,进行差异CpG分析。2)蛋白-蛋白互作网络(Protein-protein interaction,PPI):用STRING网站进行PPI网络分析,并对与TSPAN1,TMPRSS4,SDR16C5和CTSE相互作用的蛋白进行GO、KEGG富集分析。3)TSPAN1与KRAS、CDKN2A(p16)、TP53 和SMAD4的相关性分析:利用RNA-Seq数据,通过Pearson相关检验TSPAN1与胰腺癌的高频突变基因(KRAS、CDKN2A(p16)、TP53和SMAD4)之间的相关性,对TSPAN1可能发挥的调控作用提供更深入的分析。4)关键基因与免疫微环境关系分析:用CIBERSORT函数中的反卷积算法量化22种免疫细胞的丰度,在胰腺癌和癌旁中进行差异分析,并用Pearson相关检验TSPAN1,TMPRSS4,SDR16C5和CTSE与差异免疫细胞之间的相关性。5.基于机器学习构建胰腺癌的诊断模型:首先基于Logistic回归模型评价四个关键基因的诊断价值,随后结合机器学习和十折交叉验证进行胰腺癌诊断模型的构建,并在验证集和四种常见消化道癌症(胃癌、食管癌、肝癌和结直肠癌中)中分别评估模型的诊断性能和鉴别诊断性能。6.统计分析方法:本研究所用的统计分析均在R3.5.3软件下完成。应用的软件包主要有:affy、oligo、TCGAbiolinks、WGCNA、limma、DESeq2、edgeR、maftools、ChAMP、caret和ggplot2等60余种包。所有分析中,P<0.05代表该结果具有统计学意义。结果1.胰腺癌相关数据集的检索、下载及预处理:从 GEO 数据库中获得了 GSE28735、GSE15471、GSE16515、GSE32688、GSE71989、GSE106189、GSE62452、GSE62165、GSE32676,从 ArrayExpress 中获得了 E-MEXP-2780 和 E-MTAB-6134,从 TCGA、ICGC、GTEx 和 CCLE 中获得了胰腺癌、正常胰腺和30种癌症癌细胞的RNA-Seq数据。2.基于生物信息学筛选胰腺癌潜在生物标志物:1)WGCNA筛选得到18个基因模块,其中黄绿色模块与胰腺癌最为相关(R2=0.85,P=6.5e-49),该模块中的基因参与氧化还原酶活性、环氧合酶P450途径、糖鞘脂生物合成-乳和新乳系列通路和粘蛋白型O-聚糖的生物合成通路等方面。2)基因-基因互作分析确定了 20个Hub基因,与8个基因芯片的差异分析结果取交集后,确定了TSPAN1,TMPRSS4,SDR16C5和CTSE四个关键基因;经RNA-Seq数据的差异分析验证,四个关键基因在胰腺癌组织中均呈高表达水平,且差异具有统计学意义(P<0.05)。经Cox回归生存分析验证,在5种常见消化道癌症中,TSPAN1、TMPRSS4和SDR16C5仅与胰腺癌的生存有关;细胞水平的RNA-Seq数据也显示:TSPAN1,TMPRSS4,SDR16C5和CTSE在胰腺癌细胞中均呈高表达。3.基于分子生物学的实验验证:1)qRT-PCR结果表明:TSPAN1,TMPRSS4,SDR16C5和CTSE在三株胰腺癌细胞中均呈中、高表达丰度;其中TSPAN1和CTSE呈高表达丰度,其△Ct值均小于12。2)IHC结果显示TSPAN1、TMPRSS4、SDR16C5和CTSE在胰腺癌组织中的表达量均高于癌旁组织,差异均具有统计学意义(P<0.05)。在胰腺癌组织和癌旁组织中的表达量分别为:7.27±0.31和6.88±0.14;7.16±0.24和7.02±0.13;7.15±0.24 和 6.99±0.14;7.00±0.26 和 6.76±0.09。4.探索关键基因与胰腺癌之间的内在关联:1)基因突变分析显示:TMPRSS4,SDR16C5,CTSE在胰腺癌中存在突变(均为错义突变);拷贝数变异分析显示:TMPRSS4和CTSE的拷贝数变异与mRNA表达水平相关(P<0.05)。DNA甲基化分析发现:TSPAN1,TMPRSS4,SDR16C5和CTSE在胰腺癌组织中均呈低甲基化状态;2)PPI分析中,TSPAN1相互作用的蛋白参与了细胞周期、p53、癌症、胰腺癌等信号通路,并且,TSPAN1还参与了KRAS、SMAD4和TP53的调控。3)TSPAN1与KRA、CSDKN2A(p16)、TP53和SMAD4之间的相关性,均具有统计学意义,其相关系数分别为 0.67(P<0.001)、0.36(P<0.001)、0.48(P<0.001)、0.15(P<0.05)。4)免疫微环境分析发现:浆细胞,CD8T细胞,单核细胞,M0巨噬细胞,M1巨噬细胞,M2巨噬细胞,活化的树突状细胞在胰腺癌组织和癌旁中存在统计学差异(P<0.05),而且四个关键基因与M0巨噬细胞,M1巨噬细胞之间均存在统计学相关性(P<0.05)。5.基于机器学习构建胰腺癌的诊断模型:四个关键基因单独诊断胰腺癌的AUC均大于0.872,基于TSPAN1,TMPRSS4,SDR16C5和CTSE的八个诊断模型均显示出较高的诊断能力,准确率均在90%以上。其中随机森林、神经网络、灵活判别分析算法在验证集中的准确率高达100%,在胃癌、食管癌、肝癌和结直肠癌中的准确率均不足60%。结论1.基于生物信息学分析确定了四个与胰腺癌密切相关的关键基因:TSPAN1,TMPRSS4,SDR16C5和CTSE,并在细胞和组织中进行了实验验证,其结果和生物信息学分析一致。2.通过多组学、蛋白互作和免疫微环境的多层面的分析,揭示了关键基因与胰腺癌之间可能存在的内在关联,并发现TSPAN1在胰腺癌发生发展中可能的重要作用及临床诊疗中的潜力。为胰腺癌的发生、发展提供新的理解视角,并为胰腺癌的基础研究提供理论基础。3.基于机器学习构建了多个准确率高达90%以上的胰腺癌诊断模型,随机森林、神经网络、灵活判别分析模型在内部验证中的准确率高达100%。为胰腺癌的诊断提供了新思路,奠定理论基础。