论文部分内容阅读
目的:通过GEO(Gene expression omnibus)数据库筛选胰腺癌(Pancreatic adenocarcinoma,PAAD)差异表达基因(Differentially expressed genes,DEGs),利用TCGA(The cancer genome atlas program)数据库对DEGs行预后分析并构建预后风险模型,用ICGC(International cancer genome consortium)数据库验证,进而构建有效模型来评估胰腺癌术后的预后,对TCGA数据库的模型基因进行泛癌分析,以探究模型基因在泛癌中的功能和通路。确定预后相关DEGs和差异甲基化基因(Differential methylated genes,DMGs)为治疗靶点,预测胰腺癌潜在治疗药物,进一步探讨胰腺癌药物治疗相关内容。方法:第一部分胰腺癌差异表达基因(DEGs)预后风险模型的构建与验证选取GEO数据库中胰腺癌基因表达芯片数据集,对符合条件的数据集进行差异分析,取交集后得到胰腺癌DEGs。同时提取TCGA-PAAD中胰腺癌样本DEGs表达量和生存数据,筛选预后DEGs。利用STRING在线网站构建PPI网络,运用Cytoscape构建子网络,选取最高评分子网络的预后DEGs进行GO和KEGG富集分析,并采用Lasso回归构建胰腺癌预后风险模型,最后在ICGC数据库的PACA-AU、PACA-CA数据集中进行验证。第二部分模型基因的泛癌分析对TCGA数据库的33种癌症中的模型基因进行差异分析,利用生存资料中4个结局指标,包括总体生存期(Overall survival,OS)、疾病特异性生存期(Disease-specific survival,DSS)、无病生存期(Disease-free survival,DFS)和无进展生存期(Progressionfree survival,PFS),对33种肿瘤中的模型基因进行基于K-M法和单因素COX回归的生存分析。对模型基因在胰腺癌不同分期的表达量进行差异比较,再将模型基因的表达量与肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)、肿瘤干细胞的RNAss和DNAss打分以及肿瘤微环境的基质和免疫细胞打分进行相关性分析,并对模型基因的表达进行免疫亚型分析。利用c Bio Portal数据库对模型基因进行突变分析,探索其在泛癌中常见通路并进行GSEA富集分析。最后,利用ENCORI数据库来预测靶向模型基因的mi RNA和ce RNA。第三部分胰腺癌治疗药物的预测将DEGs与DMGs取交集,得到差异表达的DMGs,并进行预后分析,利用DGIdb网站寻找与预后DEGs及差异表达甲基化基因相关的胰腺癌治疗药物。结果:第一部分胰腺癌预后模型的构建和验证1.从GSE62452、GSE28735、GSE16515、GSE15471、GSE32676、GSE71989、GSE41368、GSE19650的8个不同的数据集进行筛选,同时存在6个及以上数据集的下调差异基因共有82个,上调调差异基因共有197个。2.在TCGA-PAAD数据集中,共有16个与预后相关下调基因,153个与预后相关上调基因。3.胰腺癌预后DEGs间联系紧密,构建了含139条边和169个节点的PPI网络,内含4个子网络,评分分别为7.571、6.667、4、3。4.构建了由MET和LAMA3组成的胰腺癌预后风险模型,风险值=MET*0.390219297898873+LAMA3*0.0664262145025541。本模型在TCGA-PAAD实验组中,高低风险两组之间差异具有统计学意义(P<0.05),在ICGC-AU验证组中,差异不具有统计学意义(P>0.05),在ICGC-CA验证组中,差异具有统计学意义(P<0.05)。在TCGAPAAD实验组的1年、2年、3年生存率的AUC值分别为0.731、0.703、0.690,而在ICGC-AU验证组中的1年、2年、3年生存率的AUC值分别为0.644、0.607、0.628,在ICGC-CA验证组中的1年、2年、3年生存率的AUC值分别为0.381、0.530、0.419。第二部分模型基因的泛癌分析1.MET和LAMA3在不同肿瘤中的高低表达不一致。在K-M生存分析中,在MET和LAMA3高低表达两组间,PAAD中的OS、DDS、DFS和PFS均存在统计学差异(P<0.05)。MET的OS在PAAD中HR为1.823,95%CI:1.464~2.270,P<0.001;DSS在PAAD中HR为1.773,95%CI:1.393~2.257,P<0.001;DFS在PAAD中HR为2.436,95%CI:1.524~3.894,P<0.001;PFS在PAAD中HR为1.718,95%CI:1.410~2.093,P<0.001。LAMA3的OS在PAAD中HR为1.513,95%CI:1.268~1.805,P<0.001;DSS在PAAD中HR为1.444,95%CI:1.192~1.749,P<0.001;DFS在PAAD中HR为1.580,95%CI:1.160~2.154,P<0.05;PFS在PAAD中HR为1.365,95%CI:1.169~1.595,P<0.001。2.临床相关性分析中,PAAD的MET和LAMA3的表达水平在早期I期和II期之间存在统计学差异(P<0.05),而在其他临床分期未见差异(P>0.05)。在TMB相关性分析中,MET和LAMA3与PAAD的TMB均有相关性(P<0.05),而在MSI相关性分析中,未见明显相关性(P>0.05)。在肿瘤干细胞相关性分析中,PAAD的DNAss打分与MET的表达呈负相关性(P<0.05)。在肿瘤微环境相关性分析中,在PAAD中MET的表达与免疫细胞含量呈负相关(r=-0.21,P<0.05),与基质细胞含量呈负相关(r=-0.17,P<0.05);在PAAD中LAMA3的表达与免疫细胞含量和基质细胞含量无统计学相关性(P>0.05)。3.在免疫亚型分析中,MET和LAMA3的表达在泛癌的不同免疫亚型中有统计学差异(P<0.001)。4.基因互作关系预测中,得到53个mi RNA和19个ce RNA对应靶基因MET,21个mi RNA和29个ce RNA对应靶基因LAMA3。5.MET有0.6%的错义突变,而LAMA3有14%的基因扩增。MET在泛癌中可激活下游通路中的KRAS发挥作用。第三部分胰腺癌治疗药物的预测1.GSE71989中获取了728个下调基因,GSE41368中获取了490个下调基因,GSE40097中获取了112个高甲基化基因,取交集得到了3个高甲基化低表达的胰腺癌基因,分别为CEL、CTRC、AZGP1,但未能与预后相关。GSE71989中获取了3227个上调基因,GSE41368中获取了1251个上调基因,GSE40097中获取了2个低甲基化基因,取交集未得到有效的低甲基化高表达的胰腺癌基因。2.针对169个胰腺癌预后DEGs,筛选到了41种胰腺癌的潜在靶向药物。结论:1.由MET和LAMA3组建的模型对胰腺癌术后预后评估有一定价值;2.模型基因MET和LAMA3不适合用于胰腺癌的诊断研究,适合用作预后评估和治疗靶点,可能适合评估胰腺癌免疫治疗效果,其中MET可能有评估胰腺癌细胞的分化程度并预测其侵袭和转移的能力;3.胰腺癌的生存预后可能主要由MET激活KRAS相关的信号通路决定,靶向MET的非编码RNA可能在这条信号通路上发挥作用;4.胰腺癌潜在治疗药物中靶向MET的14个药物有望在临床中得到应用。