论文部分内容阅读
研究背景和目的:肺癌是恶性肿瘤所致死亡的首要原因。作为肺癌的常见类型之一,非小细胞肺癌(non-small cell lung cancer,NSCLC)约占肺癌的87%。约75%的NSCLC患者诊断时已处于中晚期,错过了最佳手术的时机,只能采取放、化疗维持治疗,5年生存率极低。随着基因组时代的开启及分子生物学研究的发展,越来越多的靶向药物应用于临床。然而,仍有大批患者尚无合适的靶向药物可用。因此,发现新的NSCLC治疗靶点对提高NSCLC患者的生存率有着重要的意义。生物信息学作为一门新兴学科,利用数学模型和计算技术计算基因组数据之间的关系,解读生物遗传密码,从核酸及蛋白序列层面解释疾病形成的可能分子机制,对实验研究提供可行性思路。本研究旨在利用生物信息学的方法,大数据挖掘NSCLC中潜在的分子诊疗靶点并利用癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库数据及临床样本数据验证其可行性,为后期NSCLC的诊断及治疗研究提供参考意义。研究内容和方法:分别从基因表达综合数据库(Gene Expression Omnibus,GEO)、TCGA数据库和基因表达谱交互分析(Gene Expression Profiling Interactive Analysis,GEPIA)数据库下载NSCLC相关数据集。对3个数据集前处理后,利用Funrich将3组数据集合并取交集,获取显著差异表达基因(Differentially expression genes,DEGs)。然后,对DEGs进行基因本体(Gene Ontology,GO)功能注释及京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,构建蛋白互作网络及蛋白共表达网络,并以Degree>20为截取指标获取关键(Hub)基因。接着,基于各类数据库对Hub基因进行NSCLC不同亚型表达分析、不同肿瘤分期差异表达分析、生存分析、ROC(Receiver Operating Characteristic,ROC)曲线分析等,以及结合文献复习筛选并鉴定NSCLC靶向基因。最后,利用癌症细胞系百科全书(Cancer Cell Line Encyclopedia,CCLE)数据库、GEPIA数据库、Oncomine数据库初步验证所筛选目标基因在NSCLC中的表达。接着,利用R语言下载TCGA数据库的基因组数据共享(Gennomic Data Commons,GDC)NSCLC mRNA基因表达数据及临床表型数据,大数据分析目标基因表达与NSCLC临床表型的相关性。收集兰州大学第二医院胸外科42例NSCLC患者癌及癌旁组织样本以及相应的临床表型数据。检测目标基因在NSCLC患者癌与癌旁组织的相对表达量后,统计分析癌与癌旁组织目标基因的差异表达及目标基因表达与NSCLC患者临床表型的相关性。研究结果:对GSE31552、TCGA、GEPIA 3个数据集合并取交集,共获取37个显著DEGs,包括11个上调基因,26个下调基因。对DEGs予以GO功能注释及KEGG通路富集分析,结果显示DEGs主要参与的生物学过程为细胞黏附、细胞-基质黏附、解剖结构、中胚层细胞分化、半桥粒组装、胆固醇转运等;主要富集到细胞表面、黏着斑、细胞外区域、质膜等;主要参与的分子功能有离子通道结合、ATP酶活性;主要参与的信号通路有ECM-受体相互作用信号通路,局部黏着斑激酶信号通路。经PPI分析,以Degree>20定义为关键(Hub)基因,共获取9个Hub基因,包括GRK5、CAV1、A2M、FHL1、PTTG1、CDH5、ITGB4、S100A7、CD36。Hub基因生存分析结果显示RK5、CAV1、A2M、FHL1、PTTG1、CDH5、ITGB4、S100A7均与NSCLC患者生存预后显著相关。ROC曲线分析结果表明,S100A7、GRK5、A2M具有较高的诊断价值。结合PPI分析、肿瘤分期分析、生存分析、ROC曲线分析及文献复习,我们鉴定A2M为本研究的目标基因,即NSCLC的靶向基因。基于CCLE数据库,我们发现A2M在NSCLC常见细胞系中均表达下调。GEPIA数据库分析发现A2M在正常肺组织呈高表达,而在肺癌组织中表达显著下调。Oncomine数据库分析,发现A2M与淋巴结转移、肿瘤分级、血管侵犯、EGFR突变均相关。进一步利用TCGA数据库数据及临床样本数据验证A2M与NSCLC患者临床特征的相关性。结果显示,临床样本数据分析结果与TCGA数据分析结果基本一致:NSCLC癌与癌旁组织中A2M表达具有显著差异性(P<0.0001);A2M在LUSC患者表达较LUAD患者显著下调;不同年龄阶段的NSCLC患者A2M表达具有显著差异性(P=0.009);男性患者较女性患者A2M表达下调;吸烟患者较非吸烟患者A2M表达显著下调(P=0.031);A2M下调表达与肿瘤大小(P=0.017)、淋巴结转移(p=0.001)、肿瘤分期(p=0.017)均具有显著相关性。结论和意义:通过生物信息学大数据分析,筛选并鉴定A2M为NSCLC的靶向基因,然后基于TCGA数据库大数据分析及临床样本数据分析验证A2M在NSCLC中的表达及临床意义。结果显示,A2M下调表达可能与NSCLC肿瘤转移、肿瘤增长密切相关;吸烟可能是导致A2M下调表达的重要因素之一。因此,A2M可能是一个潜在的NSCLC抗癌基因,有效抑制A2M的下调表达可能有利于降低NSCLC肿瘤的转移及病情进展。