论文部分内容阅读
目的:通过乳腺癌风险预后模型的建立研究模型中乳腺癌预后基因,研究其在乳腺癌组织中的表达水平、突变频率以及可能参与的信号通路,为乳腺癌患者早期风险分层和及时的临床干预提供便捷的预测工具,识别和开发新的乳腺癌生物学标志物,实现乳腺癌患者的精准靶向治疗提供理论依据。方法:1、利用TCGA数据库筛选表达差异基因并结合单因素和多因素COX回归进一步筛选乳腺癌预后相关m RNAs来构建乳腺癌风险预后模型。应用ROC曲线下面积AUC对模型进行稳定性评估。按照模型评分的中位值,将患者划分为高低风险组,并对组间患者采用Kaplan-Meier生存分析(Log rank的检验),以评估不同模型评分患者的预后差异和验证模型的临床应用效能。最后随机抽取了原始数据中的1/3数据为验证集进行模型的内部验证。应用GEO数据库中的乳腺癌数据集GSE3744分别对筛选出三个独立危险基因SLC1A1,Nrf2和PGR基因进行了生存分析和表达验证。2、通过实时荧光定量PCR和免疫组化等实验技术进一步分析了Nrf2基因在乳腺良性上皮细胞和乳腺癌细胞中的表达情况。从TCGA数据库获取了相应Nrf2基因突变数据对野生组和突变组进行了差异对比分析研究Nrf2基因的突变情况,并根据Nrf2基因表达量的情况,对高表达和低表达人群亚组进行了Nrf2基因突变分析。分析研究报导的CUL3-KEAP1-Nrf2基因调控的突变频率分布对Nrf2基因进行了单基因的KEGG富集分析来明确Nrf2基因可能的作用机制。结果:1、TCGA数据库中共有514个乳腺转录组测序样本被下载下来,其中癌旁组织41例,癌组织473例。差异分析结果显示m RNAs共有1266个,其中上调395个,下调871个。2、单因素与多因素Cox回归分析结果显示SLC1A1,Nrf2和PGR是影响患者预后的独立危险基因。基于上述变量回归系数和表达量,构建了乳腺癌患者预后风险预测模型Risk score,Risk score=0.112*SLC1A1+0.582*Nrf2+0.166*PGR。3、Kaplan-Meier分析结果显示训练集中两组患者的OS曲线存在显著差异(P=0.00057),与低风险患者相比高风险患者的生存率明显降低,这一结果在验证集中同样得到了验证(P=0.0066)。对其中的SLC1A1,Nrf2和PGR3个基因的10年生存率进行ROC曲线分析,结果提示训练集模型的曲线下面积(AUC)在120个月的OS时为0.734,验证集中AUC=0.689。4、GSE32744数据集中Kaplan-Meier分析结果显示,Nrf2基因高风险组与低风险患者组间生存曲线具有显著差异(P=0.0155)而SLC1A1和PGR基因高低风险患者组间生存曲线没有显著差异(P分别为0.2581和0.0823);Wilcox秩和检验分析结果提示与正常组织相比,Nrf2基因在乳腺癌组织中的表达量显著增加(P<0.01)。5、实时荧光定量PCR实验发现MCF-7乳腺癌细胞中Nrf2的基因表达水平较MCF-10a乳腺良性上皮细胞明显升高,免疫组化结果进一步验证了乳腺癌组织中Nrf2的表达水平显著高于癌旁组织。6、Waterfalls包对Nrf2基因进行了突变数据分析,结果显示机体内野生组与突变组的表达存在显著差异(P<0.05),对Nrf2基因所涉及的CUL3-KEAP1-Nrf2基因轴进行突变频率分布统计发现,CUL3-KEAP1-Nrf2基因轴中,Nrf2基因突变频率最高的是Missense_mutation,位于同一基因轴上的CUL3基因突变频率最高结果和Nrf2基因一致,而同一基因轴上的另外一个基因KEAP1发生突变事件最多的却是3’UTR。高表达Nrf2基因组样本人群突变频率最高的基因是PIK3CA(38%),TP53(28%)以及TTN(18%),低表达Nrf2基因组样本人群突变频率最高的基因是TP53(41%),PIK3CA(31%)以及TTN(20%)。7、Cluster Profiler包预测Nrf2基因的KEGG富集通路,结果提示Nrf2被富集到了KEGG_WNT_SIGNALING_PATHWAY,KEGG_PATHWAYS_IN_CANCER及KEGG_MAPK_SIGNALING_PATHWAY和KEGG_MTOR_SIGNALING_PATHWAY等信号通路中。结论:1、乳腺癌预后风险评估模型成功构建,为乳腺癌患者临床风险分层和早期临床干预提供一定的指导价值;2、Nrf2基因可能成为乳腺癌治疗的潜在生物学靶点。