基于生物信息学方法探索肺腺癌分子机制及预后风险模型的构建

来源 :兰州大学 | 被引量 : 2次 | 上传用户:ghostwazy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:(1)通过加权基因共表达网络分析(Weighted gene co-Expression network analysis,WGCNA)构建肺腺癌(Lung adenocarcinoma,LUAD)基因无尺度网络,寻找LUAD的关键基因及参与的生物学功能;(2)利用WGCNA目标模块基因,筛选LUAD分期相关的关键“埋藏”基因,结合基因临床数据,寻找与LUAD预后相关的mRNA,miRNA和lncRNA,并探索其可能的生物学功能;(3)通过挖掘TCGA mRNA、lnc RNA和miRNA基因表达谱数据,构建LUAD ceRNA网络,探索LUAD可能的分子机制,结合TCGA临床数据,寻找与LUAD发生发展及生存预后相关的关键mRNA、lncRNA和miRNA分子,并探索其生物学功能;(4)利用COX回归分析方法,分别构建基于mRNA、lncRNA和miRNA的COX比例风险回归模型,探索三种模型对LUAD生存预后的预测价值。方法:(1)从NCBI GEO数据库下载LUAD基因表达谱数据及临床数据,利用R语言(3.4.3)中的“limma”包通过设定差异表达阈值(|log FC|>1.0和P<0.05)筛选差异基因,然后利用WGCNA构建无尺度网络,寻找核心基因,最后对核心基因进行GO和KEGG通路富集分析探索其生物功能;(2)将第一部分获得的枢纽基因导入GenCLiP2.0网站筛选“埋藏”的关键基因,通过TCGA数据库验证mRNA表达及与LUAD生存预后的关系,绘制ROC曲线判断基因在LUAD中的诊断价值;通过TCGA数据分析lncRNA与LUAD生存预后的关系,借助Co-LncRNA数据库预测LncRNA可能结合的靶基因;通过miRDB数据库寻找miRNA可能的靶基因,最后对所有关键“埋藏”基因进行GO和KEGG分析;(3)从TCGA数据库下载LUAD转录组的Manifest和Metadata数据,然后借助GDC-client下载工具,在cmd环境下下载原始Counts数据,利用Perl语言脚本提取原始数据的表达矩阵,通过Ensembl网站下载Homo_sapiens.GRCh38.89.chr.gtf.gz文件,得到基于gene symbol的基因表达谱矩阵,然后利用Perl语言分别提取mRNA和lncRNA表达谱矩阵,用同样的方法获得miRNA基因表达谱矩阵;利用R语言的“edgeR”包提取三种RNA的差异基因,设置阈值为(|log FC|>1.0和P<0.01);然后借助miRcode网站进行差异lncRNA与差异miRNA比对,再通过miRDB、miRTarBase和TargetScan数据库进行mi RNA靶基因比对,然后构建差异lncRNA和差异miRNA及差异miRNA与mRNA的关系对,导入数据至Cytoscape构建ceRNA网络。根据基因生存分析结果提取目的基因;(4)从TCGA数据库下载LUAD基因表达数据,利用perl语言脚本合并生存数据和基因表达数据后,先进行单因素(基因)的COX分析,然后根据单因素P值选择基因进行多因素COX分析,基于所选择基因表达谱和回归系数构建生存相关的线性风险评估模型,计算出每个样本的风险值,评估高、低风险组总体生存率差异情况,采用时间依赖的ROC曲线评估各预测模型在3年生存期的预测能力,然后采用随机数字表的方法将TCGA临床样本随机分为两组,分别验证不同回归模型在预测LUAD患者生存预后的价值和稳定性。最后评估目标预测模型是否独立于其他变量因素成为LUAD的预后因素。结果:(1)GSE40791芯片数据来自194例临床样本(LUAD组织94例,正常肺组织100例),共得到差异基因3789个(上调基因1625个,下调基因2164个),WGCNA分析最终共获得三个研究模块,筛选枢纽基因92个,GO及KEGG分析提示这些枢纽基因可能参与细胞周期循环、有丝分裂、染色体组装和分离、细胞外基质组成、蛋白结合、丝氨酸/苏氨酸激酶活性等生物学功能及p-53信号通路、蛋白质消化和吸收、细胞衰老等过程有关;(2)导入枢纽基因至GenCLiP2.0网站,分析得到“埋藏”基因有10个(mRNA5个,miRNA4个,LincRNA1个)。TCGA数据库验证发现基因C1orf198和GRAMD2在LUAD中表达下调,而基因MAP7D2、MRPL15和NUP62CL在肿瘤组中表达上调,生存分析发现基因C1orf198和GRAMD2可能是肺癌的保护性基因,而基因MAP7D2、MRPL15和NUP62CL可能是LUAD的致癌基因,ROC曲线图表明MAP7D2、MRPL15和NUP62CL曲线下面积分别为0.815、0.932和0.773,具有较高的预测价值;通过miRDB数据库比对,找到与4个mi RNA高度匹配的靶基因各20个;TCGA数据生存分析提示LIN00926可能是LUAD的保护性基因(HR=1.33,P=0.019),通过Co-LncRNA数据库比对,得到显著性最高的前20个靶基因;GO和KEGG富集分析分别提示3种RNA可能参与细胞周期循环、细胞内组份构成、细胞器组装和裂解、免疫维持、纺锤体装配、碱基代谢、DNA复制、p53信号通路;基因或蛋白结合、信号转导、肿瘤形成、mTOR、MAPK、ras、cAMP信号通路;细胞膜组成、细胞因子相互作用、B细胞受体和趋化因子信号通路等过程。(3)从TCGA数据库共获得594个样本的转录组counts数据,其中正常样本59个,LUAD样本535个,共得到567个样本的miRNA counts数据,包括46个正常样本和521个LUAD样本。通过差异基因筛选后,共获得差异mRNA2504个(上调1977个,下调527个),lncRNA 1633个(上调1425个,下调208个),miRNA 111个(上调88个,下调23个),进行差异lncRNA与差异mi RNA比对后,得到lncRNA 65个,mi RNA 8个;差异miRNA与靶基因进行比对,得到mRNA 20个,构建lncRNA-mi RNA-mRNA关系对488个,生存分析提示NAV2-AS2、C20orf197,mRNA E2F1和SLC1A1是LUAD的保护基因,而AC020907.1、AP002478.1、HOTTIP、HOTAIR、LINC00488、LINC00536、POU6F2-AS1、KIF23、CLSPN、CCNE1、CEP55、CHEK1和hsa-mir-31是LUAD的致癌基因;(4)分别基于7个mRNA、6个lncRNA和8个miRNA构建风险评估模型,风险评分分别为:-0.1286×SLC2A1+0.1375×MELTF+0.1227×FETUB+0.098×NTSR+10.1071×VAX1+0.1169×FAM83A+0.1467×ANLN、-0.1693×AC034223.2+0.1531×LINC01312+0.1854×AL353746.1+0.1515×AC139722.1+0.3576×AC034223.1+0.1977×LINC02310和0.1544×hsa-mir-3607+(-0.1228×hsa-mir-3189)+(-0.2297×hsa-mir-490)+(-0.2874×hsa-mir-5571)+0.0754×hsa-mir-31+0.0452×hsa-mir-196b+0.1952×hsa-mir-1293+0.1197×hsa-mir-548f-1;三种模型均具有较好的稳定性,高风险与低风险组相比生存时间均显著降低(P值分别为P=1.92E-10,P=1.75E-09,P=0),提示三种模式对预测LUAD生存预后具有较好的价值;不同组别COX单因素和多因素分析结果表明三种模型均是LUAD的独立预后因素(高风险vs.低风险:HR均大于1,P均小于0.05)。结论:(1)WGCNA、ce RNA网络、COX风险比例回归模型等高级生物信息分析方法有助于对LUAD的可能发生机制进行理论层面的解释和补充,为LUAD的基础研究奠定基础;(2)多元分子标志物及信号机制研究在探索LUAD的发生和发展过程显得尤为重要;(3)ceRNA lncRNA-mi RNA-mRNA机制在LUAD分子成因中扮演重要角色,为LUAD靶向治疗提供了新的理论基础;(4)基于以上mRNA、lncRNA和miRNAs构建的COX风险模型能够较好的预测LUAD患者的生存预后,确定LUAD分子水平的独立预后因素,有利于筛选高风险群体,指导制定个体化治疗方案。
其他文献
无粘结预应力对穿锚索是保证山西西龙池抽水蓄能电站地下厂房顶拱薄层灰岩稳定的最主要支护方式,为验证施工工艺的可行性和正确指导施工,根据合同技术条款和施工图纸的要求,
钢模台车在隧洞混凝土衬砌的施工中占用空间小,衬砌出的混凝土断面标准、规则。本文论述了钢模台车的先进施工工艺和存在的不足,并提出改进隧洞混凝土衬砌施工技术的方法。
河道管护是河道发挥正常功能的基本保证。由于重视不够、资金不足、管理手段落后,造成运城汾河管护工作近于瘫痪。为此必须利用政策筹足资金,完善机构、规范管理,制定切实可行的
12月22日11时26分,长四乙火箭在山西太原卫星发射中心呼啸而起,携资源一号02C卫星远赴太空,为我国2011年宇航发射的收官之战画上了圆满句号。中共中央政治局常委、国务院副总理
运用文献资料、专家咨询等方法对健美操音乐数字化编辑的原理及素材进行了分析研究,介绍了数字化音频文件的格式及来源,给出了健美操音乐数字化编辑的方法和操作程度.
本文介绍了磁浮子水位仪自动测量系统在漳泽水库大坝的应用情况,通过与人工观测数据对比分析,说明该系统传感器所测数据准确可靠。
钢、钛等高熔点材料的搅拌摩擦焊是目前搅拌摩擦焊技术的研究热点,但由于焊具的限制使高熔点材料搅拌摩擦焊存在较大难度。从材料选择、结构设计、磨损及破坏等方面出发,阐述
随着人们对南美白对虾消费的日益增加,我国北方内陆省份也开始了对南美白对虾健康养殖技术的探索与试验,且这些内陆地区有很多盐碱地水资源。文中通过对南美白对虾苗种选择、
运用文献资料法、访谈法对影响大学生体育意识形成的多种因素进行分析,并提出一些建议,旨在为有效地培养大学生体育意识提供理论依据.
在不同焊接参数下进行了7050-T7451铝合金的搅拌摩擦焊接试验,对接头显微组织进行了光学和TEM分析,并测试了接头的抗拉强度和硬度分布.焊接工艺参数通过影响接头微观组织和焊