论文部分内容阅读
目的:(1)通过加权基因共表达网络分析(Weighted gene co-Expression network analysis,WGCNA)构建肺腺癌(Lung adenocarcinoma,LUAD)基因无尺度网络,寻找LUAD的关键基因及参与的生物学功能;(2)利用WGCNA目标模块基因,筛选LUAD分期相关的关键“埋藏”基因,结合基因临床数据,寻找与LUAD预后相关的mRNA,miRNA和lncRNA,并探索其可能的生物学功能;(3)通过挖掘TCGA mRNA、lnc RNA和miRNA基因表达谱数据,构建LUAD ceRNA网络,探索LUAD可能的分子机制,结合TCGA临床数据,寻找与LUAD发生发展及生存预后相关的关键mRNA、lncRNA和miRNA分子,并探索其生物学功能;(4)利用COX回归分析方法,分别构建基于mRNA、lncRNA和miRNA的COX比例风险回归模型,探索三种模型对LUAD生存预后的预测价值。方法:(1)从NCBI GEO数据库下载LUAD基因表达谱数据及临床数据,利用R语言(3.4.3)中的“limma”包通过设定差异表达阈值(|log FC|>1.0和P<0.05)筛选差异基因,然后利用WGCNA构建无尺度网络,寻找核心基因,最后对核心基因进行GO和KEGG通路富集分析探索其生物功能;(2)将第一部分获得的枢纽基因导入GenCLiP2.0网站筛选“埋藏”的关键基因,通过TCGA数据库验证mRNA表达及与LUAD生存预后的关系,绘制ROC曲线判断基因在LUAD中的诊断价值;通过TCGA数据分析lncRNA与LUAD生存预后的关系,借助Co-LncRNA数据库预测LncRNA可能结合的靶基因;通过miRDB数据库寻找miRNA可能的靶基因,最后对所有关键“埋藏”基因进行GO和KEGG分析;(3)从TCGA数据库下载LUAD转录组的Manifest和Metadata数据,然后借助GDC-client下载工具,在cmd环境下下载原始Counts数据,利用Perl语言脚本提取原始数据的表达矩阵,通过Ensembl网站下载Homo_sapiens.GRCh38.89.chr.gtf.gz文件,得到基于gene symbol的基因表达谱矩阵,然后利用Perl语言分别提取mRNA和lncRNA表达谱矩阵,用同样的方法获得miRNA基因表达谱矩阵;利用R语言的“edgeR”包提取三种RNA的差异基因,设置阈值为(|log FC|>1.0和P<0.01);然后借助miRcode网站进行差异lncRNA与差异miRNA比对,再通过miRDB、miRTarBase和TargetScan数据库进行mi RNA靶基因比对,然后构建差异lncRNA和差异miRNA及差异miRNA与mRNA的关系对,导入数据至Cytoscape构建ceRNA网络。根据基因生存分析结果提取目的基因;(4)从TCGA数据库下载LUAD基因表达数据,利用perl语言脚本合并生存数据和基因表达数据后,先进行单因素(基因)的COX分析,然后根据单因素P值选择基因进行多因素COX分析,基于所选择基因表达谱和回归系数构建生存相关的线性风险评估模型,计算出每个样本的风险值,评估高、低风险组总体生存率差异情况,采用时间依赖的ROC曲线评估各预测模型在3年生存期的预测能力,然后采用随机数字表的方法将TCGA临床样本随机分为两组,分别验证不同回归模型在预测LUAD患者生存预后的价值和稳定性。最后评估目标预测模型是否独立于其他变量因素成为LUAD的预后因素。结果:(1)GSE40791芯片数据来自194例临床样本(LUAD组织94例,正常肺组织100例),共得到差异基因3789个(上调基因1625个,下调基因2164个),WGCNA分析最终共获得三个研究模块,筛选枢纽基因92个,GO及KEGG分析提示这些枢纽基因可能参与细胞周期循环、有丝分裂、染色体组装和分离、细胞外基质组成、蛋白结合、丝氨酸/苏氨酸激酶活性等生物学功能及p-53信号通路、蛋白质消化和吸收、细胞衰老等过程有关;(2)导入枢纽基因至GenCLiP2.0网站,分析得到“埋藏”基因有10个(mRNA5个,miRNA4个,LincRNA1个)。TCGA数据库验证发现基因C1orf198和GRAMD2在LUAD中表达下调,而基因MAP7D2、MRPL15和NUP62CL在肿瘤组中表达上调,生存分析发现基因C1orf198和GRAMD2可能是肺癌的保护性基因,而基因MAP7D2、MRPL15和NUP62CL可能是LUAD的致癌基因,ROC曲线图表明MAP7D2、MRPL15和NUP62CL曲线下面积分别为0.815、0.932和0.773,具有较高的预测价值;通过miRDB数据库比对,找到与4个mi RNA高度匹配的靶基因各20个;TCGA数据生存分析提示LIN00926可能是LUAD的保护性基因(HR=1.33,P=0.019),通过Co-LncRNA数据库比对,得到显著性最高的前20个靶基因;GO和KEGG富集分析分别提示3种RNA可能参与细胞周期循环、细胞内组份构成、细胞器组装和裂解、免疫维持、纺锤体装配、碱基代谢、DNA复制、p53信号通路;基因或蛋白结合、信号转导、肿瘤形成、mTOR、MAPK、ras、cAMP信号通路;细胞膜组成、细胞因子相互作用、B细胞受体和趋化因子信号通路等过程。(3)从TCGA数据库共获得594个样本的转录组counts数据,其中正常样本59个,LUAD样本535个,共得到567个样本的miRNA counts数据,包括46个正常样本和521个LUAD样本。通过差异基因筛选后,共获得差异mRNA2504个(上调1977个,下调527个),lncRNA 1633个(上调1425个,下调208个),miRNA 111个(上调88个,下调23个),进行差异lncRNA与差异mi RNA比对后,得到lncRNA 65个,mi RNA 8个;差异miRNA与靶基因进行比对,得到mRNA 20个,构建lncRNA-mi RNA-mRNA关系对488个,生存分析提示NAV2-AS2、C20orf197,mRNA E2F1和SLC1A1是LUAD的保护基因,而AC020907.1、AP002478.1、HOTTIP、HOTAIR、LINC00488、LINC00536、POU6F2-AS1、KIF23、CLSPN、CCNE1、CEP55、CHEK1和hsa-mir-31是LUAD的致癌基因;(4)分别基于7个mRNA、6个lncRNA和8个miRNA构建风险评估模型,风险评分分别为:-0.1286×SLC2A1+0.1375×MELTF+0.1227×FETUB+0.098×NTSR+10.1071×VAX1+0.1169×FAM83A+0.1467×ANLN、-0.1693×AC034223.2+0.1531×LINC01312+0.1854×AL353746.1+0.1515×AC139722.1+0.3576×AC034223.1+0.1977×LINC02310和0.1544×hsa-mir-3607+(-0.1228×hsa-mir-3189)+(-0.2297×hsa-mir-490)+(-0.2874×hsa-mir-5571)+0.0754×hsa-mir-31+0.0452×hsa-mir-196b+0.1952×hsa-mir-1293+0.1197×hsa-mir-548f-1;三种模型均具有较好的稳定性,高风险与低风险组相比生存时间均显著降低(P值分别为P=1.92E-10,P=1.75E-09,P=0),提示三种模式对预测LUAD生存预后具有较好的价值;不同组别COX单因素和多因素分析结果表明三种模型均是LUAD的独立预后因素(高风险vs.低风险:HR均大于1,P均小于0.05)。结论:(1)WGCNA、ce RNA网络、COX风险比例回归模型等高级生物信息分析方法有助于对LUAD的可能发生机制进行理论层面的解释和补充,为LUAD的基础研究奠定基础;(2)多元分子标志物及信号机制研究在探索LUAD的发生和发展过程显得尤为重要;(3)ceRNA lncRNA-mi RNA-mRNA机制在LUAD分子成因中扮演重要角色,为LUAD靶向治疗提供了新的理论基础;(4)基于以上mRNA、lncRNA和miRNAs构建的COX风险模型能够较好的预测LUAD患者的生存预后,确定LUAD分子水平的独立预后因素,有利于筛选高风险群体,指导制定个体化治疗方案。