论文部分内容阅读
目的:(1)通过生物信息学分析方法筛选与肝细胞癌(hepatocellular carcinoma,HCC)发生和发展相关的关键基因及信号通路,并预测其生物学功能;(2)通过对TCGA数据库mRNA,miRNA和lncRNA基因表达数据谱及临床数据的挖掘,构建HCC的ceRNA调控网络,寻找与HCC发病、进展及生存相关的mRNA,miRNA和lncRNA,探讨可能的分子机制。方法:(1)从NCBI GEO数据库下载HCC芯片数据GSE54236、基因探针及平台信息,整理并处理原始数据后利用R语言的“limma”包筛选差异基因(differential expression genes,DGEs),设定阈值为(logFC≥2且P<0.05)。通过“gplot”程序包中的“heatmap.2”函数绘制HCC样本与正常样本的聚类热图和火山图;利用STRING 10.5数据库构建PPI网络,筛选节点数最多的前30个基因作为候选基因;采用GO本体分析、KEGG分析对DGEs进行生物学功能和通路富集的探索;(2)从TCGA数据库的GDC上下载HCC转录组的Manifest数据、Metadata数据和Counts数据,通过“Perl”语言处理为表达矩阵,在Ensembel网站上下载Homo_sapiens.GRCh38.84.chr.gtf.gz文件,利用“Perl”语言脚本将原始基因表达矩阵的“Ensembl ID”转换为“gene symbol”表达矩阵,再利用R语言“edge R”包从mRNA表达谱中提取lncRNA,获得mRNA和lncRNA表达谱矩阵,同法获得miRNA的表达矩阵。再利用R语言的“edge R”包分别提取三种RNA的DGEs,设置阈值为(|log FC|>2.0且P<0.01)进行差异分析。分别将差异lncRNA与miRcode数据库作比对,再通过miRTarBase、TargetScan和miRDB三个数据库进行miRNA靶基因的比对后得到miRNA的靶基因,由此获得差异lncRNA-差异miRNA与差异miRNA-差异mRNA的关系对,导入至Cytoscape软件,构建ceRNA调控网络图;(3)整理三种RNA差异基因的生存数据,通过R语言的“Survival”包及Kaplan-Meier Plotter分析软件进行差异基因的生存分析,绘制三种RNA差异基因的生存曲线,获取关键基因。结果:(1)共筛选出675个HCC的差异基因,其中上调233个,下调442个。PPI网络图中CDK1,NDC80,BUB1,NCAPG,CCNB1,BUB1B,TPX2,TTK,NEK2,CCNA2,CDC6,CENPA,CDCA8,CCNB2,MAD2L1,AURKB,AURKA,CENPF,BIRC5,CENPE,CHEK1,KIF2C,CDC25C,CDT1,HJURP,NUF2,NCAPH,MCM10,CENPM,SPC25为节点数最多的前30个蛋白,构成该网络的中心,与其它蛋白共同形成相互作用的网络,可作为候选基因。GO分析显示差异基因的功能涉及细胞周期调节、细胞周期检查点、有丝分裂细胞周期检查点、细胞粘附、有丝分裂、急性炎症反应、化学刺激应答、细胞外区域等生物学过程、分子功能及细胞组成。KEGG通路富集分析显示差异基因主要富集在12条关键信号通路上:化学性致癌通路、视黄醇代谢通路、外源化合物的细胞色素P450代谢通路、药物的细胞色素P450代谢通路、细胞周期通路、酪氨酸代谢通路、类固醇激素生物合成通路、脂肪酸降解通路、PPAR信号通路、花生四烯酸代谢通路、矿物质吸收通路、色氨酸代谢通路;(2)由TCGA数据库下载得到424个转录组(正常组50个,HCC组374个),425个miRNA文件(正常组50个,HCC组375个),经筛选HCC组织与正常组织间共有1987个mRNA差异基因(其中上调1781个,下调206个),miRNA差异基因126个(其中上调123个,下调3个),lncRNA差异基因1070个(其中上调1013个,下调57个)。将差异lncRNA与差异miRNA进行比对得到75个lncRNA,16个miRNA,差异mRNA和miRNA的靶基因取交集得到36个mRNA。构建lncRNA-miRNA-mRNA调控关系对3个,符合ceRNA理论的调控通路共1条:CCDC26-hsa-mir-141-EPHA2;(3)基因CBX2,CCNB1,CCNE1,CCNE2,CDC25A,CEP55,CLSPN,E2F1,E2F7,RRM2,SHCBP1,HOXC8,KIF23,SOX11的高表达组生存率低于低表达组,可作为HCC不良预后的生物标志物;CPEB3,PROK2,TSPEAR-AS1低表达组生存率低于高表达组,可能是HCC的保护性基因。结论:(1)PPAR信号通路是新发现的一条与HCC发生、发展有关的关键信号通路,有望为HCC的治疗开辟新途径;(2)“CCDC26-hsa-mir-141-EPHA2”ceRNA调控通路可能参与了HCC的发病机制,其分子机制尚需实验进一步验证;(3)发现14个mRNA可作为HCC不良预后的生物标志物,2个mRNA和1个lncRNA可能是HCC的保护性基因。