论文部分内容阅读
目的非小细胞肺癌(Non-Small Cell Lung Cancer,NSCLC)是全球范围内最常见的恶性肿瘤之一,肺腺癌占NSCLC的32-40%,是最常见的组织学类型之一。近年来肺腺癌的发病率呈不断上升的趋势,其发生和发展是一个多因素、多基因及多途径改变的复杂过程。肺腺癌患者即使处在相同的临床分期,并且给予相同的治疗但是生存结局各不相同,这些差异可能是由于遗传背景的差异所导致的,因此识别并确定与肺腺癌患者生存预后相关的生物标志物是非常必要的。长链非编码RNA(long non-coding RNA,lncRNA)在多种类型的肿瘤中存在异常表达,在肿瘤发生、发展中起着致癌或抑癌的作用,是肿瘤发生的一类重要因素。目前已在组织、血液等标本中检测到肿瘤相关的lncRNA,lncRNA有望成为新型肿瘤标志物应用于肿瘤诊断和预后判定。本研究通过生物信息学和生物统计学方法,利用肺腺癌患者的lncRNA表达数据和生存数据拟合与肺腺癌生存预后相关的lncRNA表达组合模型,为肺腺癌患者预后预测提供理论依据和参考。有研究表明DNA甲基化可以通过调控基因表达而影响预后,通过分析模型中的lncRNA表达量与其甲基化水平的关系,探索影响lncRNA表达的机制是否涉及DNA甲基化。方法肿瘤基因图集(The Cancer Genome Atlas,TCGA)数据库为官方认可的向全世界公开的数据库,利用生物信息学方法从该数据库获得TCGA定义的“mRNA”表达数据,及临床数据364例,TCGA定义的“mRNA”表达数据是由m RNAs和nc RNAs等20531个基因组成,我们根据每个基因在NCBI(Ref Seq)中的ID和Ensembl中的基因类型注释,两者取交集来确定lncRNA,从每位患者“mRNA”表达数据中提取lncRNA表达数据组成新的lncRNA表达谱。对数表达比率的加权截断均值法(trimmed mean of M values,TMM)用于癌和癌旁组织中差异表达lncRNAs的筛选。生存分析和多因素Cox回归分析用于模型的拟合,根据拟合模型算出患者的危险分数,Kaplan-Meier生存分析和log-rank检验用于估计高低危险分数组患者总体生存期(overall survival,OS)是否有差别,评价拟合模型预测预后的效果。模型的检验通过训练组(n=182)和试验组(n=182)数据集相互验证,并通过另一官方认可的公共基因表达数据库(Gene Expression Omnibus,GEO)中的GSE50081数据集进一步验证。单因素和多因素Cox回归分析用于检验危险分数是否为肺腺癌患者生存预后的独立影响因素;时间依赖的ROC曲线及曲线下面积(Area Under the Curve,AUC)用于比较危险分数和TNM分期对预测患者OS的准确性。同时从TCGA数据库获得肺腺癌甲基化数据,从中提取出模型中的lnc RNAs各位点甲基化数据,配对样本t检验用于癌和癌旁组织中甲基化水平的差别检验,Spearman秩相关用于lnc RNA表达量与甲基化水平的相关分析,Kaplan-Meier生存分析和log-rank检验用于探索甲基化水平与肺腺癌患者生存预后的关系。结果1、通过NCBI(Ref Seq)与Ensembl数据库取交集的方法从20531个基因中共筛选出657个lncRNAs,TMM标准化法在癌和癌旁组织中筛选出差异表达的lncRNAs 151个。单因素Cox回归分析确定与肺腺癌患者OS相关的lncRNAs 17个。2、DIO3OS、EGOT、NCRNA00095、LOC148709 4个lncRNAs拟合一个线性预后预测模型:Risk score=(0.055×expression value of DIO3OS)+(0.013×expression value of EGOT)+(0.003×expression value of NCRNA00095)+(-0.018×expression value of LOC148709),低危险分数组患者与高危险分数组患者相比具有较好的预后结局(HR=3.11,P=1.0e-07)。3、DIO3OS、EGOT和LOC148709在肺腺癌和癌旁组织中存在差异甲基化位点。4、EGOT中的cg02799411、cg05795849和cg11600734位点甲基化水平与EGOT表达量呈负相关,LOC148709中的cg00866662、cg04155687、cg06916670、cg19082920、cg19681188和cg26271690位点甲基化水平与LOC148709表达量呈负相关。5、DIO3OS中cg20065520位点低甲基化与高甲基化患者相比有相对较好的预后。结论1、通过TCGA数据库lnc RNA表达数据和患者生存数据拟合的lnc RNA表达组合模型:Risk score=(0.055×expression value of DIO3OS)+(0.013×expression value of EGOT)+(0.003×expression value of NCRNA00095)+(-0.018×expression value of LOC148709),为肺腺癌患者的预后预测提供理论依据和参考。2、由此模型计算得到的危险分数是肺腺癌患者生存预后的独立影响因素。3、在此模型的拟合研究中危险分数预测肺腺癌患者生存预后的准确性优于TNM分期预测预后的准确性。4、DIO3OS中cg20065520位点甲基化水平是肺腺癌患者生存预后的影响因素,此位点低甲基化有相对较好的预后。EGOT和LOC148709异常甲基化可通过调控其基因表达而影响预后。