论文部分内容阅读
肺癌是当今世界各国最常见的恶性肿瘤,其发病率和死亡率呈不断上升趋势,对人类的健康和生命构成了极大威胁。在中国,肺癌每年大约导致40万例患者死亡,已成为发病率和死亡率最高的恶性肿瘤。研究显示I期肺癌术后10年生存率可达到92%。然而肺癌早期不易诊断,恶性程度高,一经病理确诊多数已属晚期,失去手术治疗的最佳时机,总的5年生存率仅为15%左右。因此,要降低肺癌患者的死亡率关键在于肺癌的早期发现、早期诊断和早期治疗。肺癌的发生是多因素、多基因和多阶段发展的复杂过程,由于传统的影像学检查和支气管镜等检查手段存在敏感性、特异性和适用度等方面的局限,近年来国内外学者对肺癌早期预警或诊断相关的分子标志和多种肿瘤生物标志的联合检测做了大量有益的探索,以期找到更合理、敏感性和特异性更高的分子联合标志。肺癌的发生是环境因素和遗传因素共同作用的结果,因此在寻找肺癌早期预警或诊断的生物标志时,也可以从两方面着手,即反映机体先天具有或后天获得的对外源性物质产生反应能力的易感性标志;反映早期生物效应、结构和/或功能改变以及疾病的效应标志。遗传因素属于前者,其作用体现在同一环境暴露中个体肿瘤易感性的差异,归根到底由基因多态所代表的遗传背景决定。另一方面,在很多情况下,许多分子事件的发生早于明显恶性表型的出现,因此,运用分子生物学的方法检测肺癌发生过程中的早期分子事件,从而发现癌前病变或早期癌变也被认为是肺癌早期预警最具应用前景的手段。肿瘤发生的早期生物效应包括了DNA甲基化和端粒损伤在内的遗传学和表观遗传学改变。数据挖掘(Data Mining),又称数据库知识发现(Knowledge Discovery from Database, KDD),它是从大量数据中提取并挖掘未知的、有价值的模式或规律等知识的复杂过程。它通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘与传统数据分析有着本质的区别。数据挖掘是在没有明确的假设的前提下挖掘信息和发现知识。同时,通过数据挖掘得到的信息具有先前未知、有效及可实用3个特征。数据挖掘中的决策树和人工神经网络技术(Artificial Neural Networks, ANN)能够对数据信息进行大规模并行处理和分布式存储,且具有良好的自适应性、自组织性及较强的学习功能、联想功能和容错功能。在肿瘤的诊断方面,不仅能够起到检测可疑病变和分类的作用,还能挖掘用于检测和分类的潜在特征标志,为肿瘤的诊断做出建设性贡献。本研究检测对象外周血中CYP1A1, GSTM1, GSTT1, mEH, XRCC1基因多态性、p16和RASSF1A基因甲基化水平及端粒相对长度,探讨5种基因多态性与p16、RASSF1A基因甲基化和端粒相对长度的相关关系,在此基础上应用数据挖掘技术,检测这些分子指标对肺癌早期预警的相关性,抽取可用于肺癌预警的有效特征,构建较为适合的预测模型,探讨是否有助于提高肺癌早期预警或诊断的正确率及联合检测对肺癌辅助诊断的意义,以实现肺癌早期预警、诊断和分类的自动化,为高危人群的筛查和临床肺癌诊断提供有价值的参考资料。目的1.探讨肺癌患者外周血I相代谢酶基因CYP1A1,Ⅱ相代谢酶基因GSTM1、GSTT1、mEH,及DNA修复酶基因XRCC1的多态基因型与肺癌易感之间的关系,探讨抑癌基因p16、RASSF1A甲基化及端粒相对长度与肺癌发生的关系,筛选出与肺癌发生相关的有效分子生物标志,找出对肺癌早期预警意义最大的几项,为肺癌的早期预警提供基础资料。2.将数据挖掘技术和上述分子标志相结合,构建可“自动”处理信息的智能预警模型,为肺癌智能预警系统的研制开辟一条新途径,提高肺癌早期预警的准确率。材料与方法1.以251例肺癌患者和256例健康体检者为研究对象。2.采用等位基因特异性扩增法(allele-specific amplification, ASA)检测CYP1A1-exon7位点多态性,采用多重PCR法检测GSTM1、GSTT1基因多态性,采用聚合酶链反应-限制性片段长度多态性(polymerase chain reaction-restriction fragment length polymorphism, PCR-RFLP)方法分别检测CYP1A1-Mspl位点、mEH-exon3、mEH-exon4、XRCC1-194、XRCC1-280及XRCC1-399位点基因多态性。采用实时荧光定量甲基化特异PCR (real-time methylation specific PCR, qMSP)技术检测p16和RASSF1A基因甲基化水平,采用荧光定量PCR法检测端粒相对长度。3.应用SPSS12.0统计分析软件,采用x2检验、t检验、秩和检验、Logistic回归分析等方法对基因多态、甲基化水平和端粒相对长度的结果进行一般统计学分析处理,探讨基因多态性、DNA甲基化及端粒相对长度变化与肺癌发生的关系,筛选可能用于肺癌早期判别模型的有效指标。4.将每组样本按3:1的比例随机分为训练集和测试集,将CYP1A1-exon7、GSTM1、mEH-exon3、XRCC1-194和XRCC1-280位点基因多态性、p16基因和RASSF1A基因甲基化水平、端粒长度及吸烟情况作为输入参数,用Fisher判别分析、决策树C5.0和反向传播神经网络算法(Back-Propagation, BP算法)分别对训练集进行训练建立模型,用训练好的模型对相应的测试集进行盲法预测,验证判别模型的优劣,最终建立肺癌早期智能化预警模型。结果1. GSTM1基因缺失型,CYP1A1-exon7、mEH-exon3、XRCC1-194及XRCC 1-280基因位点纯和突变型在病例组与对照组中的分布频率差异均有统计学意义(P<0.05),GSTM1基因缺失者与GSTM1基因阳性者相比发生肺癌的危险性升高(ORadj=1.727,95%CI:1.211-2.463);携带CYP1A1-exon7 Ile/val+val/val基因型的个体较携带CYP1A1-exon7 Ile/Ile基因型的个体发生肺癌的危险性升高(ORadj1.727,95%CI:1.203-2.477);mEH-exon3突变基因型携带者与野生纯合型的个体相比发生肺癌的危险性升高(ORadj1.758,95%CI:1.194-2.589);携带XRCC1-194 Arg/Trp+Trp/Trp基因型的个体较携带XRCC1-194 Arg/Arg基因型的个体发生肺癌的危险性升高(ORadj=1.542,95%CI:1.083-2.196);XRCC1-280His/His基因型携带者较XRCC1-280 Arg/Arg+Arg/His基因型携带者发生肺癌的危险性升高(ORadj=2.941,95%CI:1.427-6.060)。CYPIA1-Msp1、GSTT1、mEH-exon4及XRCC 1-399多态基因型在病例组与对照组中的分布频率差异均无统计学意义(P>0.05)。基于5种基因多态性建立肺癌判别模型,结果为Fisher判别分析、决策树及ANN对训练集和预测集的准确率分别为63.59%、63.25%;95.64%、82.61%:84.1%、80.77%,Fisher判别分析、决策树及ANN模型的ROC曲线下面积(AUC)分别为0.627、0.836、0.821。2.肺癌组外周血p16基因和RASSF1A基因甲基化水平及端粒相对长度分别为0.59(0.16~4.50)、27.62(9.09~52.86)、0.93±0.32,与对照组相比差异具有统计学意义(P<0.05);p16基因和RASSF1A基因启动子区甲基化水平增高及端粒相对长度缩短与肺癌发生危险性增加有关;性别、年龄、吸烟情况、肺癌分期和病理类型与p16基因、RASSFIA基因甲基化及端粒长度无关(P>0.05)。基于上述指标建立肺癌判别模型,结果为Fisher判别分析、决策树及ANN对训练集和预测集的准确率分别为66.34%、65.82%;77.26%、75.45%;72.15%、71.72%,3种模型的AUC分别为0.660、0.782、0.759。3. XRCC1-280位点不同基因型之间p16甲基化水平有差异,CYP1A1-exon7、GSTM1、mEH-exon3和XRCC1-280位点不同基因型之间RASSFIA基因甲基化水平不同,CYP1A1-exon7和GSTM1基因突变型与野生型相比端粒相对长度差异。基于上述综合指标建立肺癌判别模型结果显示,Fisher判别分析、决策树及ANN对训练集和预测集的准确率分别为72.15%、70.59%;93.88%、93%;92.96%、89.62%,3种模型的AUC分别为0.722、0.929、0.894。决策树模型对临床早期(I+II期)肺癌的判别准确率为96.36%,ANN模型为89.09%。结论1.CYP1A1-exon7、GSTM1、mEH-exon3、XRCC1-194和XRCC1-280基因位点的变异、p16和RASSFIA基因甲基化水平异常增高、端粒相对长度缩短与肺癌患癌危险度增加有关,上述指标组成肺癌早期预警模型的分子标志群。2.数据挖掘技术联合肺癌发生相关的多角度分子事件建立模型对肺癌的判别准确性优于单方面分子标志的检测。3.本文建立的多个肿瘤分子标志联合决策树和ANN技术的肺癌早期预警模型对肺癌的判别优于传统的Fisher判别方式,比常规的统计学方法更适合于临床数据的分析,准确度较高,可以用于肺癌早期预警。