论文部分内容阅读
背景与目的:三阴性乳腺癌(TNBC)是一种特殊亚型的乳腺恶性肿瘤。具有高度侵袭性的生物学特性及缺乏有效的内分泌和靶向治疗靶点,预后通常较差。随着分子生物学的发展,各种类型肿瘤的诊断和治疗已经通过检测基因和基因表达产物进入分子阶段。但是对于TNBC,目前并没有发现对临床有指导意义的新的预测因子,TNBC发生、发展的分子机制尚不清楚。因此鉴定有效的基因网络和具有代表性的生物标志物有助于揭示TNBC潜在的分子机制,并且为临床提供新的诊断标志物和治疗靶点。方法:通过下载、筛选、整理两个公共数据库(The Cancer Genome Atlas,TCGA和Gene Expression Omnibus,GEO)数据,获得其中符合研究条件的TNBC的转录组和临床信息数据。对于TCGA数据,利用R语言的“edgeR”包对TNBC与正常乳腺RNAs表达数据进行TMM标准化及差异表达基因(Differentially expressed genes,DEGs)筛选,设置阈值为(|log FC|>1 和 the adjusted p value,FDR<0.05)。对于已经标准化的 GSE76250 的 TNBC 与正常乳腺RNAs表达数据利用R语言的“limma”包直接行DEGs筛选,设置阈值为(|log FC |>0.4和FDR<0.05)。然后利用R语言的“WGCNA”包分别对两数据集差异基因的表达数据行加权共表达分析,寻找两组中对TNBC生物学特点作用相同的模块。提取模块的基因,首先将基因共表达关系在Gephi软件可视化,然后结合STRING蛋白互作网络在线分析进一步筛选和验证共表达调控关系,提取枢纽基因(Hub Gene)。同时利用DAVID、WikiPathways、GSEA等在线分析工具对各个模块基因、交集基因、枢纽基因行GO分析(Gene Ontology Analysis)、KEGG(Kyoto Encyclopedia of Genes and Genomes)分析等,明确相关基因的功能和通路,并且利用R软件将结果可视化。结果:本研究中共纳入166例TCGA和188例GEO数据库中TNBC样本,在TCGA数据库中,共筛选4258个(2125上调和2133下调)差异表达基因(Differentially expressed genes,DEGs),在GEO数据库中,共筛选2503个(1265上调和1238下调)DEGs。WGCNA共表达分析结果显示,这两个数据集具有很高的相似性,其中TCGA turquoise模块和GEO turquoise模块相对应、TCGA green模块和GEO blue模块相对应,与TNBC肿瘤的生成显著相关。在两组相应的模块的本地数据网络分别鉴定出26个基因和13个基因枢纽基因。结合STRING蛋白互作网络分析,在第一组模块中筛选出11个顶部枢纽基因(TOP2A,CCNA2,PLK1,BUB1,NDC80,KIF11,NCAPG,TTK,EXO1,ASPM,DLGAP5),CD34 是另一组模块的顶部枢纽基因。为每个组关系构建可视化网络图。对中枢基因调控网络的基因和路径富集分析表明,肿瘤中的细胞分裂、DNA复制、细胞外基质相互作用和路径等是肿瘤发生的关键决定因素。结论:本研究中,我们利用生物信息学数据分析方法,分析识别出与TNBC发生密切相关的两组模块,预测出TNBC发生的基因网络关系。通过对模块基因功能和通路富集分析,揭示TNBC发生的潜在机制。GESA全面分析基因集中功能富集和基因对表型的贡献度,是前期研究的验证和补充。基于共表达网络分析的方法可能有助于发现TNBC发生、发展的生物标志物,并作为建立个性化诊疗的基础。