论文部分内容阅读
目的肺癌是威胁人类健康的重大公共卫生问题,早期筛查是提高患者五年生存率的关键。该研究基于蛋白组学和生物信息学技术,通过实验性体内外肺癌模型筛选出差异表达分子,为肺癌筛查提供候选分子标志;通过酶联免疫吸附试验(Enzyme linked immunosorbent assay,ELISA)验证候选分子标志的表达情况。采用数据挖掘技术,联合肺癌患者和正常对照组血浆中候选分子标志、传统肿瘤标志(CEA、NSE与CYFRA21-1)的蛋白表达水平以及流行病学资料构建肺癌筛查模型,以期实现对焦炉工人群肺癌高危个体的早期筛查和预警。方法1.肺癌候选分子标志筛选课题组前期以煤焦沥青烟提取物(Coal tar pitch extracts,CTPE)为染毒物诱导人支气管上皮细胞(Human bronchial epithelial cells,BEAS-2B),构建细胞恶性转化模型,CTPE染毒浓度为15.0 μg/ml,染毒BEAS-2B细胞5次,染毒结束记为0代,传代40次。课题组前期选取SPF级C57BL/6小鼠180只,随机分为正常对照组、溶剂对照组和CTPE组。实验组小鼠经气管滴注CTPE(1 mg/只),每周1次,连续4周后停止;染毒12个月后解剖小鼠。体内外实验均采用全蛋白串联质谱标记(Tandem mass tags,TMT)定量蛋白质组学技术检测差异表达蛋白。该研究联合体内外实验的蛋白组学结果,应用生物信息学分析并筛选出候选分子标志。2.人群血浆样品差异蛋白表达水平验证选取185例肺癌患者、163例健康对照和163例焦炉工人作为研究对象,经知情同意后收集其基线资料与血浆样品,ELISA法检测血浆中相关差异蛋白及传统肺癌标志物的表达水平。3.肺癌筛查模型构建采用SPSS Clementine 12.0软件,将样品按3:1分为训练集与预测集,应用人工神经网络(Artificial neural network,ANN)、决策树C5.0、支持向量机(Support vector machine,SVM)与Fisher判别分析分别建立肺癌筛查模型,对其预测效果进行比较,并筛选出的优势模型用于对焦炉工人群进行肺癌高危个体筛查。4.生物信息学及统计学方法筛选差异蛋白标准:P<0.05;差异表达量变化大于1.3或者小于1/1.3。通过GO分析和KEGG分析对差异蛋白的生物学功能进行探讨。然后构建蛋白-蛋白相互作用网络图,筛选核心蛋白作为检测目标。并进一步通过Oncomine数据库、Kaplan-Meier数据库和GEPIA数据库从基因层面上对核心蛋白进行验证。采用SPSS 21.0软件进行统计分析,符合正态分布的定量资料采用均值±标准差表示,两组间比较采用两独立样本t检验,三组之间比较采用单因素方差分析;不符合正态分布的定量资料采用M(P25,P75)表示,两组间比较采用Mann-Whitney U检验,三组之间的比较采用Kruskal-Walis H检验;定性资料组间的比较用χ2检验;检验水准设为α=0.05。结果1.肺癌候选分子标志筛选基于TMT定量蛋白组学技术,经CTPE诱导BEAS-2B细胞恶性转化,共筛选出差异表达蛋白197个,其中表达上调蛋白157个,表达下调蛋白40个;经CTPE诱导小鼠肺部发生肿瘤,共筛选出36种差异表达蛋白,其中表达上调蛋白26个,表达下调蛋白10个。经过生物信息学分析、文献查阅、基因水平验证、临床医生建议,初步筛选CDH1、CLU、CLEC3B、sCD146和VIM为肺癌的候选分子标志。2.人群血浆样品差异蛋白检测(1)肺癌患者与焦炉工人及健康对照人群血浆中8种蛋白表达水平比较肺癌患者血浆中CEA、CYFRA21-1、CLU、VIM和sCD146表达水平均高于健康对照组(P<0.05);CDH1在肺癌患者血浆中表达水平低于健康对照组(P<0.05);NSE与CLEC3B在肺癌患者和健康对照组之间表达差异无统计学意义(P>0.05)。焦炉工人血浆中CDH1和sCD146表达水平均低于健康对照组(P<0.05);CYFRA21-1和VIM在焦炉工人中表达水平高于健康对照组(P<0.05)。CLU、CLEC3B、CEA与NSE在两组之间表达差异无统计学意义(P>0.05)。(2)不同TNM分期的肺癌患者血浆中8种蛋白表达水平比较Ⅰ、Ⅱ期肺癌患者血浆中sCD146和CEA表达水平均低于Ⅲ、Ⅳ期肺癌患者(P<0.05);Ⅰ、Ⅱ期肺癌患者血浆中CLU表达水平高于Ⅲ、Ⅳ期肺癌患者(P<0.05);CDH1、CLEC3B、VIM、CYFRA21-1 与 NSE 表达水平与 TNM 分期无关(P>0.05)。早期(Ⅰ、Ⅱ期)肺癌患者血浆中CEA、CLU与VIM表达水平均高于健康对照组(P<0.05)。CDH1和CLEC3B在早期肺癌患者血浆中表达水平均低于健康对照组(P<0.05)。sCD146、CYFRA21-1与NSE在两组之间表达差异无统计学意义(P>0.05)。晚期(Ⅲ、Ⅳ期)肺癌患者血浆中CDH1表达水平低于健康对照组(P<0.05);CEA、CLU、CYFRA21-1、sCD146与VIM在晚期肺癌患者血浆中表达水平均高于健康对照组(P<0.05);CLEC3B与NSE在两组之间表达差异无统计学意义(P>0.05)。(3)不同组织病理学类型的肺癌患者血浆中8种蛋白表达水平比较NSE在小细胞肺癌患者血浆中的表达水平高于肺腺癌与肺鳞癌(P<0.05)。CDH1、CLU、CYFRA21-1、CEA、CLEC3B、sCD146 与 VIM 在三种病理类型中表达差异无统计学意义(P>0.05)。3.数据挖掘模型的效果评估及其应用基于3种传统肿瘤标志(CEA、CYFRA21-1、NSE)构建肺癌筛查模型,ANN模型效果较好,其AUC为0.764、准确度为77.32%、灵敏度为65.85%,特异度为85.71%,阳性预测值为77.14%,阴性预测值为77.42%。由CDH1、CLU、CLEC3B、sCD146、VIM候选分子标志群构建的模型中,Fisher判别分析模型效果较好,其AUC为0.729、准确度为71.13%、灵敏度为70.73%,特异度为71.43%,阳性预测值为64.44%,阴性预测值为76.92%。联合5种肺癌候选分子标志(CDH1、CLU、CLEC3B、sCD146、VIM)与3种传统肿瘤标志(CEA、CYFRA21-1、NSE)构建模型,ANN模型效果较好,其AUC为0.833、准确度为81.44%、灵敏度为95.12%,特异度为71.43%,阳性预测值为70.91%,阴性预测值为95.24%。联合八种分子标志以及流行病学资料构建的肺癌筛查模型,其中ANN模型效果较好,其AUC为0.837、准确度为84.54%、灵敏度为78.05%,特异度为89.29%,阳性预测值为84.21%,阴性预测值为84.75%。将优选模型应用于焦炉工人群进行肺癌高危个体的预测,共筛选13位肺癌高危个体。结论1.基于体内外模型及蛋白组学和生物信息学筛选出肺癌差异表达分子,初步揭示CDH1、CLU、CLEC3B、sCD146与VIM蛋白表达改变是肺癌发生的分子事件,且经临床研究证实人血浆CDH1、CLU、CLEC3B、sCD146与VIM表达水平与肺癌相关。2.运用数据挖掘技术,联合肺癌候选分子标志(CDH1、CLU、CLEC3B、sCD146、VIM)与传统肿瘤标志物(CEA、CYFRA21-1、NSE)以及流行病学资料构建肺癌筛查模型,以人工神经网络预测模型的效果最好,可应用于焦炉工人群高危个体的筛查。