论文部分内容阅读
本研究以已经公开发表的两个与非小细胞肺癌(non-small cell lung cancer,NSCLC)生存相关的GWAS数据库为基础,在第一部分探讨了核内体相关通路中的基因多态性和NSCLC患者预后之间的关系,寻找核内体通路中与NSCLC预后相关的SNPs,将通路中与NSCLC预后或生存期相关的SNP作为分子标志物筛选出来。在第二部分通过分析SNPs的不同基因型与生存期之间的关系建立和完善能够预测肺癌患者预后的模型。在第三部分分析了通路内的SNPs与相应基因表达水平之间的关系,探索SNP是如何通过影响相应基因的表达进而影响患者的预后。
第一部分 核内体通路中与NSCLC预后相关的SNPs
目的:
在发现库中找出核内体通路中与NSCLC预后相关的SNPs并通过另一数据库验证出在两个数据库中均与NSCLC预后相关的SNPs。再通过独立性检验找出核内体通路中与预后显著且独立相关的SNPs。
方法:
本研究所采用的数据库有两个:一个前列腺癌、肺癌、结直肠癌和卵巢癌的大型癌症筛查(Prostate,Lung,Colorectal and Ovarian,PLCO)数据库,作为发现数据库;另一个是哈佛大学肺癌易感性(Harvard Lung Cancer Susceptibility Study,HLCS)研究数据库,作为验证数据库。对来自核内体通路中的220个基因中的44112个SNPs位点与NSCLC患者的总体生存期之间的相关性进行了分析。研究中主要应用单变量和多变量的Cox比例风险回归分析法,分析SNPs与NSCLC患者预后之间的关系,P<0.05认为是显著相关;采用了阈值为0.80的贝叶斯错误发现概率(Bayesian false-discovery probability,BFDP)进行多次测试校正,以降低假阳性的发生率。其他应用软件有HaploView、R语言、Stata等及网站如SNPinfo、HaploReg、RegulomeDB等将会在论文中进一步阐述。除特别注明外,所有统计分析均使用SAS软件(9.4版;美国北卡罗来纳州卡里市SAS研究所)。
结果:
(1)PLCO数据库中1185名NSCLC患者的临床变量与生存期的相关性分析
(2)核内体通路中的SNPs与NSCLC患者生存期之间的相关性分析
(3)PLCO数据库中与NSCLC患者总体生存期独立相关的SNPs
(4)独立相关的SNPs在两个数据库的meta分析
结论:
(1)在本研究中发现PLCO数据库的NSCLC人群中的临床变量年龄、性别、吸烟状态、病理、临床分期、手术治疗、化疗、放疗与患者的预后密切相关。
(2)核内体通路中的6个SNPs FIG4rs6899506C>A、KIF16B rs1555195C>T、IGF1R rs3743254C>T、AGAP1rs1962215A>G、STX8rs62067144G>A、NEDD4L rs11660748A>G与NSCLC患者的总生存期显著且独立相关。
第二部分 建立对NSCLC预后预测的模型
目的:
通过对与NSCLC预后相关的SNPs转换的基因型进行组合、分层分析和ROC模型的建立,明确其作为生物标志物相较于临床因素是否能提高对NSCLC患者预后的预测能力。
方法:
该部分研究所采用的数据库为PLCO数据库。由于并未获得HLCS数据库的详细资料,建立的预测模型是在PLCO数据库中的病人临床信息上所建立的。首先将上部分所发现的6个SNPs以基因型的方式分别分为三个基因型即FIG4rs6899506的CC,CA和AA;KIF16B rs1555195的CC,CT和TT;IGF1R rs3743254的CC,CT和TT;AGAP1rs1962215的AA,AG和GG;STX8rs62067144的GG,GA和AA;NEDD4L rs11660748的AA,AG和GG。之后应用单变量和多变量的Cox比例风险回归分析法,分别分析这6个SNPs的三个基因型与NSCLC患者预后之间的关系。再将这6个SNPs中的风险基因型进行组合,探索组合后的效果是否存在数量依赖性。最后以PLCO数据库中现有的临床资料建立一个预后预测的模型,将这6个SNPs纳入到模型中,探索是否能提高模型对预后的预测能力。应用软件有R语言和SAS软件,Prism6.0用于K-M生存曲线的绘制。
结果:
(1)SNP各基因型与NSCLC患者预后之间的关系
(2)PLCO数据库中六个SNPs的风险基因型组合效果多变量分析中,风险基因型数的增加与患者的死亡风险升高正相关(Ptrend<0.0001)。然后将所有患者分为少风险基因型组(0-3)和多风险基因型组(4-6)。与少风险基因型组相比,多风险基因型组患者的疾病特异性生存期(disease-specific survival,DSS)显著缩短,疾病相关死亡风险升高了1.64倍(HR=1.64,95%CI=1.39-1.94,P<0.0001)。多风险基因型组患者的总生存期(overall survival,OS)也显著缩短,死亡风险升高了1.63倍(HR=1.63,95%CI=1.39-1.91,P<0.0001)。
(3)六个SNPs的各基因型对生存影响的分层分析
(4)NSCLC患者预后预测模型的建立
结论:
(1)这6个SNPs的风险基因型均与患者更差的预后显著相关。并且随着风险基因型(AGAP1rs1962215AA,FIG4rs6899506CA+AA,KIF16B rs1555195CC,IGF1R rs3743254CC,NEDD4L rs11660748AG+GG,STX8rs62067144GA+AA)数目的增加,NSCLC死亡风险呈数量依赖性升高,即多风险基因型患者较少风险基因型患者总体生存期缩短,预后差。在风险基因型组合后的分层分析中未发现各个临床变量亚组之间的异质性检验有统计学的差异。
(2)核内体通路中6个SNPs联合本实验室既往发表的SNPs所建立的预测模型能够提高对NSCLC患者预后的预测能力。
第三部分 核内体通路中的SNP与相应基因表达水平之间的关系
目的:
(1)通过分析本研究中SNP与相应基因mRNA表达水平之间的关系,探索SNP是否影响了基因的表达。
(2)通过分析基因mRNA在肿瘤和癌旁组织中的表达水平及与生存期之间的关系,探索所发现SNPs的生物学意义,描述出SNPs影响预后的途径。
方法:
本部分研究所采用的数据库有两个:千人基因组计划(the1000Genomes Project)和the Genotype-Tissue Expression(GTEx)project。利用千人基因组计划中欧洲人群的373个白种人的外周血淋巴细胞RNA测序结果和GTEx计划中的外周血和正常肺组织的RNA测序结果。进行了expression quantitative trait loci(eQTL)分析,即进行SNP各基因型与基因mRNA表达水平的相关性分析。之后分析了所研究的mRNA在癌组织和癌旁组织的表达水平以及与NSCLC患者生存之间的关系。应用软件R语言,网站UALCAN、GTEx等将会在论文中进一步阐述。除特别注明外,所有统计分析均使用SAS软件(9.4版;美国北卡罗来纳州卡里市SAS研究所)。
结果:
(1)对六个SNP的功能分析
本研究中6个SNPs中2个SNPs与相应基因的mRNA表达水平显著相关。其中在千人基因组计划中373个欧洲人的淋巴细胞中FIG4rs6899506C allele与相应mRNA的上调表达显著相关(相加模型中,P=0.020;隐性模型中,P=0.002);在GTEx计划中KIF16B rs1555195T等位基因与相应mRNA的下调表达显著相关(在全血中,P=2.1x10-7;在正常肺组织中,P=0.017);其余4个与预后独立相关的SNPs在eQTL分析尚未发现与相应基因的mRNA的表达水平显著相关的证据。
(2)六个SNP所在基因的mRNA在癌和癌旁组织中的表达水平
(3)六个基因mRNA表达水平与NSCLC患者生存期之间的关系
结论:
(1)FIG4rs6899506C在千人基因组计划中与FIG4基因mRNA表达水平升高有关。KIF16B rs1555195T在GTEx计划中的正常肺组织和全血中与KIF16B基因mRNA表达水平降低有关。SNPs FIG4rs6899506和KIF16B rs1555195可能通过影响相应基因mRNA的表达水平来影响NSCLC的预后。
(2)其余4个与预后独立相关的SNPs虽然在eQTL分析尚未发现与相应基因的mRNA的表达水平显著相关的证据。但是这4个SNPs所在的基因在肺癌组织和癌旁组织间的mRNA表达水平也存在显著差异。并且这6个SNPs所在基因mRNA的表达水平与患者的预后也密切相关。
第一部分 核内体通路中与NSCLC预后相关的SNPs
目的:
在发现库中找出核内体通路中与NSCLC预后相关的SNPs并通过另一数据库验证出在两个数据库中均与NSCLC预后相关的SNPs。再通过独立性检验找出核内体通路中与预后显著且独立相关的SNPs。
方法:
本研究所采用的数据库有两个:一个前列腺癌、肺癌、结直肠癌和卵巢癌的大型癌症筛查(Prostate,Lung,Colorectal and Ovarian,PLCO)数据库,作为发现数据库;另一个是哈佛大学肺癌易感性(Harvard Lung Cancer Susceptibility Study,HLCS)研究数据库,作为验证数据库。对来自核内体通路中的220个基因中的44112个SNPs位点与NSCLC患者的总体生存期之间的相关性进行了分析。研究中主要应用单变量和多变量的Cox比例风险回归分析法,分析SNPs与NSCLC患者预后之间的关系,P<0.05认为是显著相关;采用了阈值为0.80的贝叶斯错误发现概率(Bayesian false-discovery probability,BFDP)进行多次测试校正,以降低假阳性的发生率。其他应用软件有HaploView、R语言、Stata等及网站如SNPinfo、HaploReg、RegulomeDB等将会在论文中进一步阐述。除特别注明外,所有统计分析均使用SAS软件(9.4版;美国北卡罗来纳州卡里市SAS研究所)。
结果:
(1)PLCO数据库中1185名NSCLC患者的临床变量与生存期的相关性分析
(2)核内体通路中的SNPs与NSCLC患者生存期之间的相关性分析
(3)PLCO数据库中与NSCLC患者总体生存期独立相关的SNPs
(4)独立相关的SNPs在两个数据库的meta分析
结论:
(1)在本研究中发现PLCO数据库的NSCLC人群中的临床变量年龄、性别、吸烟状态、病理、临床分期、手术治疗、化疗、放疗与患者的预后密切相关。
(2)核内体通路中的6个SNPs FIG4rs6899506C>A、KIF16B rs1555195C>T、IGF1R rs3743254C>T、AGAP1rs1962215A>G、STX8rs62067144G>A、NEDD4L rs11660748A>G与NSCLC患者的总生存期显著且独立相关。
第二部分 建立对NSCLC预后预测的模型
目的:
通过对与NSCLC预后相关的SNPs转换的基因型进行组合、分层分析和ROC模型的建立,明确其作为生物标志物相较于临床因素是否能提高对NSCLC患者预后的预测能力。
方法:
该部分研究所采用的数据库为PLCO数据库。由于并未获得HLCS数据库的详细资料,建立的预测模型是在PLCO数据库中的病人临床信息上所建立的。首先将上部分所发现的6个SNPs以基因型的方式分别分为三个基因型即FIG4rs6899506的CC,CA和AA;KIF16B rs1555195的CC,CT和TT;IGF1R rs3743254的CC,CT和TT;AGAP1rs1962215的AA,AG和GG;STX8rs62067144的GG,GA和AA;NEDD4L rs11660748的AA,AG和GG。之后应用单变量和多变量的Cox比例风险回归分析法,分别分析这6个SNPs的三个基因型与NSCLC患者预后之间的关系。再将这6个SNPs中的风险基因型进行组合,探索组合后的效果是否存在数量依赖性。最后以PLCO数据库中现有的临床资料建立一个预后预测的模型,将这6个SNPs纳入到模型中,探索是否能提高模型对预后的预测能力。应用软件有R语言和SAS软件,Prism6.0用于K-M生存曲线的绘制。
结果:
(1)SNP各基因型与NSCLC患者预后之间的关系
(2)PLCO数据库中六个SNPs的风险基因型组合效果多变量分析中,风险基因型数的增加与患者的死亡风险升高正相关(Ptrend<0.0001)。然后将所有患者分为少风险基因型组(0-3)和多风险基因型组(4-6)。与少风险基因型组相比,多风险基因型组患者的疾病特异性生存期(disease-specific survival,DSS)显著缩短,疾病相关死亡风险升高了1.64倍(HR=1.64,95%CI=1.39-1.94,P<0.0001)。多风险基因型组患者的总生存期(overall survival,OS)也显著缩短,死亡风险升高了1.63倍(HR=1.63,95%CI=1.39-1.91,P<0.0001)。
(3)六个SNPs的各基因型对生存影响的分层分析
(4)NSCLC患者预后预测模型的建立
结论:
(1)这6个SNPs的风险基因型均与患者更差的预后显著相关。并且随着风险基因型(AGAP1rs1962215AA,FIG4rs6899506CA+AA,KIF16B rs1555195CC,IGF1R rs3743254CC,NEDD4L rs11660748AG+GG,STX8rs62067144GA+AA)数目的增加,NSCLC死亡风险呈数量依赖性升高,即多风险基因型患者较少风险基因型患者总体生存期缩短,预后差。在风险基因型组合后的分层分析中未发现各个临床变量亚组之间的异质性检验有统计学的差异。
(2)核内体通路中6个SNPs联合本实验室既往发表的SNPs所建立的预测模型能够提高对NSCLC患者预后的预测能力。
第三部分 核内体通路中的SNP与相应基因表达水平之间的关系
目的:
(1)通过分析本研究中SNP与相应基因mRNA表达水平之间的关系,探索SNP是否影响了基因的表达。
(2)通过分析基因mRNA在肿瘤和癌旁组织中的表达水平及与生存期之间的关系,探索所发现SNPs的生物学意义,描述出SNPs影响预后的途径。
方法:
本部分研究所采用的数据库有两个:千人基因组计划(the1000Genomes Project)和the Genotype-Tissue Expression(GTEx)project。利用千人基因组计划中欧洲人群的373个白种人的外周血淋巴细胞RNA测序结果和GTEx计划中的外周血和正常肺组织的RNA测序结果。进行了expression quantitative trait loci(eQTL)分析,即进行SNP各基因型与基因mRNA表达水平的相关性分析。之后分析了所研究的mRNA在癌组织和癌旁组织的表达水平以及与NSCLC患者生存之间的关系。应用软件R语言,网站UALCAN、GTEx等将会在论文中进一步阐述。除特别注明外,所有统计分析均使用SAS软件(9.4版;美国北卡罗来纳州卡里市SAS研究所)。
结果:
(1)对六个SNP的功能分析
本研究中6个SNPs中2个SNPs与相应基因的mRNA表达水平显著相关。其中在千人基因组计划中373个欧洲人的淋巴细胞中FIG4rs6899506C allele与相应mRNA的上调表达显著相关(相加模型中,P=0.020;隐性模型中,P=0.002);在GTEx计划中KIF16B rs1555195T等位基因与相应mRNA的下调表达显著相关(在全血中,P=2.1x10-7;在正常肺组织中,P=0.017);其余4个与预后独立相关的SNPs在eQTL分析尚未发现与相应基因的mRNA的表达水平显著相关的证据。
(2)六个SNP所在基因的mRNA在癌和癌旁组织中的表达水平
(3)六个基因mRNA表达水平与NSCLC患者生存期之间的关系
结论:
(1)FIG4rs6899506C在千人基因组计划中与FIG4基因mRNA表达水平升高有关。KIF16B rs1555195T在GTEx计划中的正常肺组织和全血中与KIF16B基因mRNA表达水平降低有关。SNPs FIG4rs6899506和KIF16B rs1555195可能通过影响相应基因mRNA的表达水平来影响NSCLC的预后。
(2)其余4个与预后独立相关的SNPs虽然在eQTL分析尚未发现与相应基因的mRNA的表达水平显著相关的证据。但是这4个SNPs所在的基因在肺癌组织和癌旁组织间的mRNA表达水平也存在显著差异。并且这6个SNPs所在基因mRNA的表达水平与患者的预后也密切相关。