论文部分内容阅读
目前肺癌已成为人类癌症死亡的主要原因,是当今公共卫生领域的重大难题。因此,降低肺癌患者死亡率的关键在于早期预防。肺癌的发生是一个多因素、多阶段、多基因表达改变的复杂生物学过程,其发生的早期生物效应包括了DNA甲基化和端粒损伤在内的表观遗传学和遗传学改变。DNA甲基化是表观遗传学修饰的主要形式,其主要通过对CpG序列的胞嘧啶进行甲基化修饰来调控基因的表达,DNA序列本身并不改变。抑癌基因的启动子CpG岛甲基化使该基因在转录水平上失活,导致相关蛋白表达缺少,间接促进了肿瘤的发生。DNA甲基化是在DNA甲基转移酶(DNA–methyltransferase,DNMTs)催化下,以S腺苷甲硫氨酸为甲基供体,将甲基转移到DNACpG二核苷酸的胞嘧啶第5碳原子上的反应。这种表达上调的发生通常先于甲基化模式异常,所以被认为是肿瘤细胞的一个具有特征的早期分子改变,其可以通过促进DNA高甲基化参与肿瘤的发生和发展。与异常DNA甲基化类似,组蛋白修饰在基因的表达调节中同样扮演重要角色。在组蛋白的修饰中,研究最多的是乙酰化。组蛋白乙酰化与去乙酰化,分别是由组蛋白乙酰转移酶(histone deacetylases,HAT)和去乙酰化转移酶(histonedeacetylases,HDAC)催化的。研究证明,HDAC能阻断抑制肺癌发生的关键基因通路,而且HDAC激活可能促进肿瘤形成。由于肿瘤的发生发展过程极其复杂,这些早期的分子标志改变对肺癌诊断的特异性并不高。目前人们多应用肿瘤标志联合检测,以提高灵敏度和特异度,但存在多参数及肿瘤标志之间的相互作用等问题,而解决这些问题的传统统计学方法一般都要求数据符合正态分布,但实际资料很少能满足这样的条件,故无法深层次利用这些数据。随着数据挖掘技术的发展,其在解决大量的变量带来的多参数问题上具有独特的优势,因此,利用早期分子生物标志及临床参数建立合适的智能型分类模型,将提高肺癌的早期诊断准确率。既往研究对象大部分为肺癌患者手术取得的肿瘤组织,而对于外周血甲基化的研究甚少。该研究拟检测对象血清中DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达水平与外周血DNA抑癌基因甲基化水平及端粒相对长度,探讨DNA甲基转移酶与组蛋白去乙酰化转移酶1和DNA甲基化及端粒长度是否为肺癌早期分子事件,以及这些异常的分子标志作为肺癌早期诊断可能性及联合检测对肺癌诊断的价值和它们之间的相关关系,在此基础上应用数据挖掘技术,构建较为智能型的预测模型,探讨有助于提高早期肺癌诊断的正确率及联合检测对肺癌辅助诊断的意义,为高危人群的筛查和临床肺癌早期诊断提供依据。目的(1)在肺癌组、肺良性疾病组及正常组血清中检测DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达水平;检测外周血DNA中FHIT、RASSF1A、MGMT基因启动子甲基化及端粒相对长度。(2)应用数据挖掘技术与传统的Logistic回归模型相比较,对分子指标进行判别分类,构建早期肺癌分子诊断模型。材料与方法1.研究对象的选择:136例原发性肺癌患者的外周血标本于2012年9月至2013年6月取自郑州大学第一附属医院肿瘤科及呼吸内科住院患者;140例肺良性疾病患者外周血同期取自郑州市第六人民医院肺科住院患者;145例正常对照组外周血取自同期郑州市第六人民医院体检科体检的正常人群。经医院临床伦理委员会批准及研究对象知情同意后,由专业的调查员和医生收集研究对象的流行病学资料并采集血液做相应的处理。2.DNA甲基转移酶及组蛋白去乙酰化转移酶检测:采用酶联免疫吸附法(ELISA)法检测血清中DNMT1、DNMT3a、DNMT3b及HDAC1的蛋白表达水平。3.实时荧光定量甲基化特异性PCR:用实时荧光定量PCR分析外周血DNAFHIT、RASSF1A和MGMT基因启动子甲基化及端粒相对长度。4.统计分析方法:采用SPSS12.0统计软件。根据数据分布类型选择表达方法及组间统计学检验方法。采用2检验、t检验、F检验、非条件Logistic回归等方法,分析血清中DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达水平和外周血DNA中FHIT、RASSF1A、MGMT基因甲基化水平及端粒相对长度,探讨DNA甲基转移酶及组蛋白去乙酰化转移酶1与抑癌基因甲基化和端粒相对长度与早期肺癌的关系。检验水准为α=0.05。5.建立模型方法:应用SPSS Clementine12.0软件进行Logistic回归分析、决策树、人工神经网络和支持向量机数据挖掘分析。将DNMT1、DNMT3a、DNMT3b、HDAC1、MGMT、RASSF1A、FHIT和性别、年龄、吸烟史等变量纳入模型,将样本按3:1的比例随机分成训练集和预测集,用训练好的模型对预测集进行预测,并结合诊断试验评价指标对模型的预测结果进行评价。结果1.肺癌患者血清中DNMT1、DNMT3a、DNMT3b、HDAC1蛋白表达均高于对照组及肺良性疾病组,差异有统计学意义(P<0.05);肺癌患者血清中DNMT1、DNMT3a、DNMT3b、HDAC1蛋白表达与肺癌的组织学类型及临床分期无关(P>0.05)。2.外周血DNA MGMT、RASSF1A和FHIT基因启动子甲基化水平在肺癌组均高于对照组及肺良性疾病组,差异有统计学意义(P<0.05);单因素分析MGMT甲基化水平在肺癌组与性别、年龄及组织学类型有关(P<0.05);RASSF1A甲基化水平在肺癌组与年龄及临床分期有关(P<0.05);FHIT基因甲基化水平在肺癌组与年龄及组织学类型有关(P<0.05);分别将3个基因启动子甲基化水平分为4组及2组后,随着甲基化水平的增加,肺癌的危险性增加(Ptrend<0.05)。3.肺癌组端粒长度明显短于肺良性组及正常人组(P<0.001);多元线性回归分析结果提示,性别、年龄、吸烟史均与端粒长度相关(P<0.001),且随着年龄的增加也会使端粒长度缩短(P<0.001)。4. Logistic回归对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和受试者工作特征曲线下面积(AUC)分别为68.0%、88.6%、70.9%、60.7%、95.1%和0.923,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到89.11%;决策树对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为77.8%、95.1%、81.2%、75.0%、95.1%和0.946,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到99.01%;神经网络对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为59.1%、78.0%、60.5%、46.4%、95.1%和0.877,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到88.12%;支持向量机对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为54.5%、87.5%、62.6%、64.3%、85.4%和0.851,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到92.08%;对101例(Ⅰ期+Ⅱ期)早期肺癌的预测支持向量机的AUC仅次于决策树,明显高于Logistic回归和神经网络。结论:1.血清中DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白高表达可能与肺癌有关,可能是肺癌发病的早期效应生物学标志;但无组织学特异性并与肺癌病情进展、预后无关。2.外周血DNA MGMT、RASSF1A和FHIT基因启动子异常甲基化可能与肺癌有关,可抑制基因转录,促进肿瘤发生;外周血DNA端粒相对长度缩短可增加患肺癌的危险性。3.成功构建了基于DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达和抑癌基因甲基化的决策树模型,对肺癌的早期诊断效果优于Logistic回归、支持向量机和神经网络,可作为早期肺癌诊断的优选方法。