论文部分内容阅读
前言:肺癌是诊断率第二高的癌症,也是世界上癌症死亡的主要原因,腺癌是最常见的肺癌类型。近年来,在临床上肺癌的靶向治疗得到了广泛应用,如酪氨酸激酶抑制剂(tyrosine kinase inhibitor,TKIs)和表皮生长因子受体(epidermal growth factor receptor,EGFR)抑制剂,但由于肺癌的发病机制相对复杂,早期症状不明显,缺乏有效的早期诊断,预测转移以及耐药性手段等,肺癌的五年生存率仍然很低。因此,进一步探索肺癌发生的分子机制,揭示肺腺癌(Lung adenocarcinoma,LUAD)的潜在分子机制,充分阐明肺腺癌基因特征与临床病理特征之间的相关性至关重要。肿瘤和癌症基因图谱(The Cancer Genome Atlas,TCGA)已经开始广泛的被人们熟知和使用。之前基于TCGA的数据的数据已经发现了多个和肿瘤有关的特征。其中泛癌症图谱项目通过TCGA当中的多种测序数据(甲基化测序,基因组测序以及RNA-seq)来进行多组学的统一分析。通过多组学的分析,在癌症信号通路,肿瘤细胞起源以及致癌过程等多个方面做了重要的总结。研究表明,基于基于多组学的角度观察肿瘤的发生发展,能够纵向的多维度的分析某中生物过程在癌症当中的作用。为探索癌症的多组学治疗,药物开发以及多组学联合治疗提供新的见解。因此,多组学分析越来越引起重视,其不仅有助于发现肿瘤共性表型特征而且有助于深层次解读关键分子事件的成因及自身内在的调控机制。肿瘤的发展涉及一个复杂的事件网络,正如Hanahan所描述的癌症的特征,包括自给自足的生长信号、抗生长信号不敏感性和凋亡的逃避、高复制潜能、持续的血管生成和转移。癌细胞代谢的改变被认为是癌症的一个新特征。研究发现癌症是一种破坏性疾病,会改变细胞和周围环境的新陈代谢,恶性细胞的代谢紊乱与肿瘤的进展密切相关,肺癌内部异质性及相关的信号通路和调节因子可能起到决定性作用,肺癌内部代谢紊乱对于诊断疾病严重程度和分期,估计治疗反应和预后,开发新的治疗靶点有着重要作用。关于代谢和肺癌的关系,之前只是基于单一组学来观察代谢相关基因在肺癌当中的作用。仍没有从多个组学多个维度观察代谢相关基因在肺癌当中发挥的作用。基于肿瘤患者基因特征来进行肿瘤分型的方法之前已经有了很多的研究。例如在癌症基因组图谱研究将胃癌基于基因特征分为以下四种亚型:爱泼斯坦-巴尔病毒(Epstein–Barr virus,EBV)、微卫星不稳定性(Microsatellite instability,MSI)、基因组稳定(Genomically stable,GS)和染色体不稳定性(Chromosomal instability,CIN)[11]。EBV亚型表现出高频的PIK3CA突变、极端DNA高甲基化以及JAK2、PD-L1和PD-L2扩增;MSI亚型则突变率升高;GS亚型富含弥漫性组织学变异和RHOA突变,CIN亚型显示受体酪氨酸激酶的显着非整倍性和局灶性扩增。对于肺癌的研究而言,Robert C Doebele等人的通过分析肺癌患者m RNA的特征把肺癌分成了:经典型(classical)、基底型(basal)、分泌型(secretory)和原始型(primitive)。然而基于代谢相关基因进行的基因分型目前还有没相关的研究。综上,本研究通过分析TCGA当中肺腺癌的多组学数据(转录组测序,全基因组甲基化检测以全基因组测序),全景式的揭示代谢相关基因在基因突变,拷贝数变异,基因表达以及甲基化变化和LUAD的关系。在此基础上,基于LUAD预后相关代谢多组学特征构建代谢相关多组学基因分型,阐明代谢相关基因的多组学分子分型在LUAD发生发展过程当中的重要作用以及可能的调控机制。同时寻找代谢相关基因模型核心基因,结合我们收集的肺腺癌正常和对照组织对核心基因进行基因分型验证以及功能分析,以其明确肺癌代谢基因分型的具体核心基本以及对肺癌的具体影响机制。本研究有助于发现不同组学当中代谢相关基因和LUAD的关系。同时可以了解代谢相关基因分型在不同组学当中可能存在的调控关系。目的:1.探讨代谢相关基因在多组学的角度和肺腺癌的关系。以期阐明代谢相关基因在肺腺癌的发生发展过程中的重要作用。2.探讨基于多组学的代谢相关基因特征对肺腺癌进行基因分型的可能性,以其了解代谢相关基因分型和肺腺癌的具体关系3.探讨代谢相关基因分型的核心基因的功能,以期了解代谢相关基因分型的具体核心基因具体调控机制。研究方法:1.数据收集利用京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG),我们下载了代谢通路的相关基因。经过下载,最终获得了1660个LUAD代谢相关基因,主要包含在86条代谢途径中。此外,我们将这些途径指定为10种特定代谢物,包括聚糖、脂质、氨基酸、辅因子/维生素、碳水化合物、次级代谢物、核苷酸、异生素、能量和辅因子/维生素。我们使用UCSC XENA下载了TCGA当中的LUAD的多种测序数据。其中主要包括转录组测序,全基因测序的突变以及拷贝数,甲基化测序。同时还收集了肺腺癌患者的相关临床信息,其中包括年龄、性别、吸烟、临床分期、肿瘤复发情况等等。其中在RNA-seq数据,下载了Count数据用于差异表达分析。下载TPM(transcripts per million reads)数据用于分析表达和临床特征以及多组学之间的关联分析。进一步,使用上述从KEGG得到的代谢相关基因,在LUAD中筛选代谢相关基因的数据进行后续分析。2.代谢相关基因的体细胞突变和拷贝数变异分析为了考虑基因突变的功能性,我们首先筛选了对基因功能有影响的突变,其中包括Missense Mutation、Nonsense Mutation、Translation Start Site、Frame Shift Del、Nonstop Mutation、In Frame Del、Splice Site、Frame Shift Ins、In Frame Ins以上10种突变类型。然后,我们选择突变样本大于5的突变基因,以确保有足够的样本量进行预后分析,最后通过Kaplan-Meier Log-rank检验评估代谢相关基因突变是否影响LUAD的预后。为了进一步阐明代谢相关基因突变对LUAD患者的影响,我们利用上述基因突变信息计算了每个样本的肿瘤代谢突变负荷(tumor mutation burden,TMB)和基因组片段改变(fraction genome altered,FGA)。FGA还包括基因组片段改变(fraction genome gain,FGG)和基因组片段丢失(fraction genome loss,FGL)。然后,我们评估了它们与LUAD的预后和临床参数的关联。3.代谢相关基因表达分析我们使用Deseq2包对TCGA-LUAD中的Count数据进行差异表达分析。进一步筛选具有差异的代谢相关基因。在差异分析当中,我们以FDR(false discovery rate)<0.05和log2(foldchange)的绝对值>1作为筛选LUAD特异性的代谢相关基因的标准。进一步,对以上代谢相关基因进行了预后分析。同时通过交叉分析寻找既影响LUAD发生又影响LUAD预后的代谢相关基因。在预后分析当中,我们采用Best Separation的算法对代谢相关基因的表达进行分组。同时通过Kaplan-Meier Log-rank检验评估代谢相关基因表达是否影响LUAD的预后。最后我们分析了LUAD特异性的代谢相关基因和LUAD临床特征的关系。除了比较单纯基因改变和LUAD的关系,我们还使用基因集变异分析(Gene Set Variation Analysis,GSVA)来计算了每个样本的代谢代谢物质得分。通过每个患者的代谢物质得分,综合性的分析了代谢物质和LUAD发生发展以及预后的关系。4.代谢相关基因甲基化测序分析DNA甲基化是研究最多的表观遗传修饰。TCGA主要是通过450K来检测甲基化变化的。Ch AMP是一个专业性的甲基化测序分析工具,通过Ch AMP可以进行包括过滤低质量探针、调整Infinium I和Infinium II探针设计、批量效应校正、检测差异甲基化位置(differentially methylated positions,DMP)的功能等分析。在通过UCSC XENA下载到LUAD的甲基化数据之后。我们通过Ch AMP来分析基因组的甲基化水平对LUAD的影响。其中通过差异甲基化分析,我们筛选出LUAD特异性的代谢相关甲基化位点。最后对差异甲基化位点和预后有关甲基化位点进行交叉分析来或者LUAD特异性的代谢相关差异甲基化位点。5.基因分型构建和基本特征分析基于之前分析获得的影响LUAD预后的多组学数据,我们利用MOVICS来进行多组学聚类分析,以寻找合适的多组学基因分析分组。首先,我们基于多组学数据的聚类预测指数(clustering prediction index,CPI)和差距统计的分析对预后有意义的多组学数据进行评估。随后,使用十种聚类算法根据第一步预测出来的亚型个数对患者进行分类。最后,通过共识聚类并以高稳健性识别亚型的方式获得一个组合分类。在聚类分析当中,我们一共使用了包括i Cluster Bayes、mo Cluster、CIMLR、Int NMF、Consensus Clustering、COCA、NEMO、PINSPlus、SNF和LRA在内的十种聚类算法。在确定基因分型之后,我们进一步分析了代谢相关基因分型和LUAD临床特征的关系。同时基于TCGA-LUAD的预后信息,分析了基因分析和TCGA-LUAD预后的关系。我们使用Kaplan-Meier Log-rank检验来进行基因分型的预后分析。最后为了进一步了解基因分型对于临床用药的影响。我们基于癌症药物敏感性基因组学(GDSC)数据库预测每个样本的化疗反应。其中主要选择了三种常用药物(5-氟尿嘧啶、顺铂和紫杉醇)来进行预测分析。对上述三种药物的反应是通过岭回归估计样品的半数最大抑制浓度(the half-maximal inhibitory concentration,IC50),进一步比较药物的IC50在不同代谢相关基因分型当中的差异。6.基因分型和基因组功能分析为了探究基因分型和LUAD基因组突变和拷贝数的关系。我们首先分析了哪些基因在不同的基因分型当中存在差异。为了保证基因突变在各组当中都有分布,在分析之前我们筛选了突变个数大于5的基因进行后续分析。肿瘤突变负荷(tumor mutation burden,TMB)是一个用来评估肿瘤患者样本当中每百万个碱基的非同义突变数的指标。TMB一般了肿瘤的预后和治疗有明确的关系。因此我们进一步分析了基因分型和TMB的关系。基因拷贝数的变化也对肿瘤有严重的影响。基于每一个基因拷贝数的变化情况,计算了每个样本的FGA,FGG以及FGL。最后来观察不同代谢相关基因分型和FGA,FGG以及FGL的区别。7.基因分型基本功能分析使用R中的“limma”包计算亚型特异性上调和下调基因。我们以|log2(foldchange)|>1和矫正P值<0.05作为差异基因选择的标准。为了了解代谢基因分析的功能。首先,我们使用ORA算法分析了差异基因可能调节的通路。同时使用GSEA分析代谢基因分型的的其他功能。最后基于之前报道的肿瘤相关基因集,我们分析了包括免疫细胞(B细胞,T细胞,NK细胞,巨噬细胞),细胞功能,TNF超家族,细胞因子,趋化因子,调节因子,抗原加工,白细胞功能白细胞介素,病原体防御,补体,细胞毒性,小胶质细胞功能,TLR,粘附,转运蛋白,细胞周期以及衰老在内的21个基因集。首先我们使用GSVA算法评估了各个样本当中这些功能的评分。进一步通过T检验来分析了肿瘤相关功能和代谢相关分型的关系。8.代谢相关基因分型核心基因筛选和组织验证利用第二部分获得的基因分型的差异表达基因,我们利用STRING(https://cn.string-db.org/)数据库分析差异表达基因之间的蛋白相互作用网络。同时利用MCODE算法分析相互作用网络当中的核心基因。收集肺癌组织和癌旁对照标本26例并以问卷调查历记录方法收集所有研究对象相关流行病学信息和临床资料并与其签署知情同意书。研究对象来自2019年中国医科大学附属第一医院接受肺癌手术治疗的患者,全部研究病例均有病理组织学诊断。提取26对组织样本的m RNA。通过real-time PCR的方式验证代谢基因分型相关的核心基因在肺癌当中是否存在差异表达。同时分析核心基因和肺癌临床参数的关系。9.代谢相关核心基因泛癌表达分析为了进一步了解肺癌核心基因的功能首先我们在多个癌肿当中分析了这些基因的差异表达情况。我们总共分析了33个不同的TCGA项目。每一个癌肿包括TPM(每千碱基的转录本)表达、拷贝数变异、突变和临床信息(生存状态、阶段、等级、生存时间)在内的相关数据均从UCSC XENA下载。为了识别每种癌症类型中基因表达的变化,我们使用R中的Limma算法来识别差异表达的基因。调整后的P值<0.05和至少两倍表达变化的基因被鉴定为每种癌症类型中的差异表达基因。同时为了了解核心基因在肿瘤细胞系当中的基础表达情况,使用癌细胞系百科全书(Cancer Cell Line Encyclopedia CCLE:https://sites.broadinstitute.org/ccle)数据库,我们分析了核心基因在癌细胞系里面的基础表达情况。在CCLE数据库当中,我们选择多个常见肿瘤细胞系进行分析其中包括,乳腺癌,肾癌,结肠癌,肝癌,肺癌,胰腺癌,胃癌以及食管癌这八个细胞系进行分析。进一步除了了解基因m RNA的表达情况。我们从蛋白质表达数据来自“人类蛋白质图谱”(protein atlas,https://www.proteinatlas.org/)中检测了核心基因的蛋白表达情况。我们总共分析了包括包括乳腺癌(breast cancer,BRCA)、类癌(carcinoid)、宫颈癌(cervical cancer,CECA)、结肠癌(colorectal cancer,COCA)、神经胶质瘤(glioma)、头颈癌(head and neck cancer,HNSC)、肝癌(liver cancer,LIHC)、肺癌(lung cancer,LUCA)、淋巴瘤(lymphoma)、黑色素瘤(melanoma)、卵巢癌(ovarian cancer,OV)、胰腺癌(pancreatic cancer,PACA)、肾癌(renal cancer,RACA)、皮肤癌(skin cancer,SKCA)、胃癌(stomach cancer,STCA)、睾丸癌(testis cancer,TECA)、甲状腺癌(thyroid cancer,THCA)、尿路上皮癌(urothelial cancer,URCA)、子宫内膜癌(endometrial cancer,ENCA)和前列腺癌(prostate cancer,PRCA)10.代谢相关核心基因基因突变和拷贝数变异分析从TCGA数据库下载的核心基因突变基因拷贝数变异(Copy number variation,CNV)数据。以突变发生的频率以及CNV扩增和缺失的比例来计算CNV在每种癌症类型中出现的频率。11.代谢相关核心基因功能和调控机制研究为了了解核心基因的基本功能,我们在TCGA-LUAD数据当中来分析可能存在的功能。首先基于肺腺癌的TPM数据,我们使用GSVA的算法评价了每个样本的免疫细胞得分。其中GSVA算法是一种通过表达数据集的样本估计基因集富集变异的非参数无监督方法。为了鉴定与某些途径的激活或抑制相关的基因,我们计算了核心基因表达与途径活性之间的皮尔逊相关系数(PCC)。|PCC|>0.3和调整后的P<0.05认为是存在差异性的相关。同时由于铁死亡在肿瘤的发生过程中发挥了中重要的作用,所以进一步分析了核心基因和铁死亡相关相关基因的关系。同样也是基于|PCC|>0.3和调整后的P<0.05作为差异筛选的标准。最后为了整体分析核心基因的功能。我们采用GSEA(Gene Set Enrichment Analysis)的算法来分析核心基因在肿瘤特异性的基因通路当中的功能。最后由于基因的表达收到转录因子的调控,因此我们进一步分析了,转录因子对于核心基因的共同调控作用。Ch EA3是一个基于ENCODE,Re Map以及之前的文件数据于一体的转录因子调控预测工具。基于Ch EA3我们分析了核心基因的共同转录因子。结果:1.在基因组分析当中,我们发现了有1442个代谢相关基因基因在LUAD当中存在突变。其中有695个代谢相关基因的突变样本大于5,且42个基因突变影响LUAD的预后,同时基于代谢相关基因突变评估的TMB和LUAD患者的吸烟情况有关。且代谢相关TMB在1500天之后影响LUAD的预后。另外,我们将预后相关基因映射到特定代谢物,发现其中29个基因主要与氨基酸代谢有关。另外除TMB外,我们还考虑了代谢相关基因的拷贝数的变化。经过计算和分析,我们发现在吸烟组中FGA和FGL和吸烟与否有关。而FGG作为一个综合性评价拷贝数改变的指标则没有差异。在预后分析当中,FGG、FGL和FGA均与LUAD的预后无关。2.首先经过差异表达分析,我们发现248个高表达代谢相关基因以及134个低表达基因。同时对所有的代谢相关基因进行预后分析。经过分析发现总共有118个基因和LUAD的预后有关。最后我们通过交叉分析发现为了寻找LUAD既影响表达又影响预后的特异性基因。我们通过交叉分析发现有20个基因既影响LUAD的风险也影响LUAD的预后。这20个LUAD特征性基因有16个和糖类代谢有关,有10个则和氨基酸代谢有关。另外基于GSVA算法评估代谢物质得分之后,我们观察到通过相关分析我们发现,多个代谢物质之间都存在一定的正相关作用。进一步,我们分析了代谢物质评分在LUAD当中是否存在差异。经过分析我们发现除了维他命之外,其他代谢物质都影响LUAD的发生。同样的在预后分析当中,也是只有维他命和LUAD的预后没有关系。3.在甲基化方面分析当中,最终一共获得868个代谢相关甲基化位点存在差异。其中409个低甲基化位点,398个高甲基化位点。而通过预后分析,我们最终确定了124个预后有意义的位点。在这124个位点当中,一共有115个位点既存在差异甲基化又和预后有意义。其中115个位点主要存在余73个基因上。而这73个基因有23个是和氨基酸代谢有关。3.利用代谢相关基因的基因突变,DNA甲基化以及基因表达三个组学和LUAD预后有关的特征,使用多个聚类算法,我们将肺腺癌患者分成了两个基因分型(CS1和CS2)。4.代谢相关基因分型和肺腺癌预后有很强的相关性。同时在N分期以及临床stage当中存在差异分布。经过分析发现,代谢相关基因分型影响LUAD的预后。且CS1预后不好(P<0.001)。我们发现,在三个经典的化疗药物当中,5-氟尿嘧啶、顺铂和紫杉醇在不同的基因分型当中都存在的变化差异。其中都是在CS2当中IC50高于CS1。5.比较了CS1和CS2组的遗传改变。首先我们比较了突变的基因和基因分型的关系。经过分析发现,一共有12个基因的突变和基因分型有关。其中几乎都是在CS1当中基因更容易发生突变。在以上十二个基因当中,有四个基因是和磷酸肌醇代谢有关。进一步,我们比较了不同的代谢基因分型和TMB和拷贝数改变的关系。经过分析发现,在CS2分型当中的明显的低于CS1的TMB。同样的在拷贝数改变方面,CS2的拷贝数改变情况明显低于CS1的改变。6.使用limma包来分析了两组之间的差异表达基因。经过筛选,我们一共得到969个高表达基因以及1441个低表达基因。基于KEGG通路富集分析,我们观察了这些基因的主要调控通路。经过分析,我们发现一共有14条通路和基因相关分型有关,其中包括细胞周期通路,糖酵解通路,P53信号通路,碳代谢信号通路。基于GSEA的算法,我们又对差异基因进行基因功能分析。经过分析我们发现CS1主要是和细胞复制有关,而CS2则主要是和免疫细胞反应有关。进一步分析了代谢相关基因分型和肿瘤特征基因集的关系。经过分析。我们发现两个基因分析之间主要是在细胞周期,补体以及衰老等方面存在差异。7.利用从第二部分得到的代谢相关基因分型的差异表达基因。使用STRING数据库分析蛋白相互作用以及MCODE算法筛选核心基因之后,一共有10个基因,可以当做代谢相关基因分型的核心基因:GPI,FBP1,ENO1,TPI1,LDHA,ALDOA,PFKP,G6PD,ENO3,ALDOB。8.利用组织样本验证之后,10个核心基因当中一共有6个核心基因在肺腺癌当中存在的差异表达。这6个差异表达基因分别是:GPI,FBP1,TPI1,ALDOB,ENO3,PFKP。进一步和临床样本的相关性分析发现,ALDOA基因和组织样本的性别有关。而没有基因在N分期当中分布存在差异。有三个基因在Stage有关差异表达(GPI,TPI1以及PFKP)。在分析吸烟的时候,发现只有FBPI在两组之间存在差异。9.在对验证的基因进行泛癌分析中,我们发现除了胰腺癌之外,其他的肿瘤都有至少一个基因存在差异表达情况。其中多个基因在KIRC当中都存在差异表达情况。另外,ALDOB基因在多个肿瘤当中都有差异表达情况。且多是在癌当中低表达。同时在和多个癌肿的预后关系上,以上六个核心基因对大多数的肿瘤的预后都有一定的影响。其中六个核心基因都影响KIRC的预后且之后ENO3是风险因素其他基因则是保护性因素。而在STAD当中六个基因都不影响其预后的进行。10.除此之外,我们使用CCLE数据库观察了六个基因在多个肿瘤细胞系当中的表达情况。经过分析发现以上六个基因除了ENO3在细胞系当中表达较低之外,其他的五个基因存在高表达情况。最后的蛋白表达数据库,我们观察了六个基因在不同肿瘤的蛋白表达情况。经过分析发现,ALDOB基因在肿瘤当中几乎不存在的蛋白表达。以上六个基因当中,只有PFKP在多个肿瘤当中存在高度的表达。其他基因只有一定程度的中表达或者低表达11.对以上六个核心基因进行功能分析发现,六个核心基因在一定程度上和免疫细胞都存在的一定差异相关性。其中Th2细胞和六个核心基因都有一定的相关性。且和TP I1基因存在很强的正相关。另外FBP1和多个免疫细胞都有一定的关联。同时基于GSEA分析发现,GPI、TPI1和PFKP和37条肿瘤相关通路有关。FBP1和35条通路有关而ALDOB和ENO3则和34条通路存在差异。结论:1.在基因突变,DNA甲基化以及基因表达三个维度观察代谢相关基因和肺腺癌的关系。经过分析发现代谢相关基因在各个维度都和肺癌的发生发展以及预后有一定的相关性。2.基于肺腺癌预后有关的代谢相关基因进行基因分型,我们确定了两个代谢相关基因分型。这两个基因分型影响肺腺癌的预后。同时也和化疗药物的耐药有关。最后,功能分析发现肺腺癌代谢基因分型和多个癌症相关通路有关。3.经过筛选和临床样本组织验证,最终确定了六个肺癌基因分型有关核心基因。经过泛癌分析发现六个基因除了肺腺癌之外还和多个肿瘤有密切的关系。另外对这六个基因进行功能分析的时候发现,六个基因影响多条肿瘤相关通路。