论文部分内容阅读
背景与目的据卫生部统计显示,2007年我国城市和农村恶性肿瘤死亡率占疾病总死因构成的28.84%和24.8%,居各种死因首位。而位于前五位的分别是肺癌、肝癌、胃癌、食管癌和结直肠癌,因此肺癌和消化道肿瘤成为危害我国国民健康的主要杀手。虽然在防治肿瘤方面做了大量工作,但肿瘤的发病率和死亡率仍然居高不下。其原因可能是一方面在肿瘤一级预防和二级预防上投入不够,缺乏行之有效的社区预防干预措施;另一方面目前仍然缺乏肿瘤早期诊断技术。很多肿瘤患者临床确诊时已是中晚期,此时治疗效果和预后差,这是导致肿瘤死亡率居高不下的主要原因。因此早期发现、早期诊断和早期治疗仍然是提高肿瘤患者生存率,降低死亡率,改善预后的主要措施。目前肿瘤诊断的主要方法有影像学诊断、血清免疫学诊断和细胞学与组织病理学诊断。但由于活检人员和病理医生的主观因素、活检的创伤性以及活检时病人的合作意愿等因素的影响,造成肿瘤患者的漏诊、误诊等现象时有发生。肿瘤标志的出现为人们早期发现肿瘤带来了曙光,然而随着实践的不断深入,发现单个肿瘤标志仍然无法承担起早期诊断肿瘤的重任。于是人们将希望寄于多种肿瘤标志的联合检测,并不断更新肿瘤标志的检测技术。这种努力使得肿瘤诊断率有所提高,也使得肿瘤早期发现成为可能。近几年人们从统计学角度上做了大量研究,希望能建立一种基于多肿瘤标志检测数据的较大样本量的智能诊断模型,来克服一些人为主观因素和个体因素的影响,进一步提高肿瘤诊断率。人工神经网络(artificial neural network,ANN)是模拟人脑的组织结构和运行机制的一种非线性信息处理工程系统,它具有大规模并行处理能力和分布式信息存储能力,并具有良好的自适应性、自组织性以及很强的自学习功能、联想功能和容错功能。目前已广泛应用于疾病智能诊断系统构建、疾病危险因素的筛查、疾病风险评估以及基因识别和蛋白质结构分析等领域。近几年,将ANN技术联合多肿瘤标志用于构建肿瘤智能诊断系统成为研究的热点。本课题组前期研究筛选出了对肺癌具有较高特异性的血清癌胚抗原(Carcinoembryonic antigen,CEA)、神经元特异性烯醇化酶(Neuron-specific enolase,NSE)、胃泌素(Gastrin)、唾液酸(sialic acid,SA)、铜锌比值(Cu/Zn)和血清钙离子浓度等6种肺癌肿瘤标志组成肺癌最佳肿瘤标志组合,并应用ANN技术建立了肺癌智能诊断系统。该研究在上述基础上,扩大样本量检测这6种肿瘤标志,并构建ANN联合6种肺癌肿瘤标志的肺癌诊断系统,以考察本课题组前期建立的肺癌智能诊断系统的可靠性和稳定性以及结果的重现性,为肺癌的临床辅助诊断和社区肺癌高危人群筛检提供更加坚实的理论依据。同时考察ANN联合6种肺癌肿瘤标志对胃癌的鉴别诊断能力,以评估ANN联合6种肺癌肿瘤标志应用于其他肿瘤鉴别诊断的可行性。材料与方法收集61例正常人、53例肺部良性疾病患者、67例肺癌患者、55例胃部良性疾病患者和47例胃癌患者的血清标本。采用放射免疫法测定血清癌胚抗原(CEA)、神经元特异性烯醇化酶(NSE)和胃泌素的表达水平;采用偶氮砷Ⅲ终点法钙离子测定试剂盒测定血清的钙离子浓度;采用原子吸收分光光度法(石墨炉法和火焰法)测定血清铜离子和锌离子含量,并计算铜锌比值(Cu/Zn);采用改良的间苯二酚法测定血清唾液酸浓度。对测得的5组283例患者的基本资料和6种肿瘤标志数据进行整理,利用SPSS12.0做描述性统计分析、卡方检验以及方差分析。将上述数据归一化处理,并将各组随机的分为训练集和测试集。利用训练集分别在Matlab7.0和SPSS12.0平台上构建ANN诊断模型和logistic回归诊断模型,并对相应的测试集进行预测诊断。利用受试者工作特征曲线(Receiver Operating Characteristic,ROC)分析比较纳入基本资料前后和数据合并前后ANN模型与相应的logistic回归模型在鉴别诊断肺癌以及胃癌能力方面的优劣。结果1.正常人组,肺良性疾病组和肺癌组在现病史和家族史,生活习惯以及居住环境等基本资料方面,除了烹调方式外,在3组中的分布差异有统计学意义(P<0.05),说明这些因素与肿瘤的发生密切相关,并可作为肺癌发生的危险因素,收集这些资料并进行分析有助于肺癌的诊断以及判断肺癌高危人群和肺癌早期预警。2.方差分析表明:正常组-肺良性疾病组-肺癌组6种肿瘤标志的表达水平差异均有统计学意义(P<0.05),两两比较结果显示6种肿瘤标志在上述3组之间的表达水平差异也均有统计学意义(P<0.05);在正常组-胃良性疾病组-胃癌组6种肿瘤标志的表达水平差异同样具有统计学意义(P<0.05),两两比较结果显示除了正常组和胃良性疾病组CEA和胃泌素的表达水平差异无统计学意义(P>0.05)外,其他各组两两比较水平差异均有统计学意义(P<0.05)3.根据正常人组-肺良性疾病组-肺癌组6种肿瘤标志表达数据建立ANN肺癌预诊断模型,在纳入基本资料前后对总样本预测肺癌的灵敏度、特异度和准确度分别为92.5%、96.5%、95.5%和95.5%、99.1%、97.8%,而对测试集预测肺癌的灵敏度、特异度和准确度分别为75.0%、85.3%、81.5%和85.0%、97.1%、92.6%;将本次实验数据与课题组先前的研究数据合并后,重新建立ANN肺癌预测模型,对总样本的灵敏度、特异度和准确度分别为94.0%、90.4%和91.7%,对测试集的灵敏度、特异度和准确度分别为92.0%、98.1%和87.3%。根据正常人组-胃良性疾病组-胃癌组6种肿瘤标志表达数据建立ANN联合6种肿瘤标志的胃癌诊断模型,预测胃癌的灵敏度、特异度和准确度分别为88.9%、95.7%和93.8%;根据胃癌和肺癌组建立ANN胃癌-肺癌鉴别诊断模型,预测肺癌的灵敏度和特异度分别为100%和83.3%,预测胃癌的灵敏度和特异度分别为83.3%和100%,总的准确度为93.5%。4.ROC曲线分析表明纳入基本资料前后ANN模型对总样本鉴别诊断肺癌的ROC曲线下面积(Area Under the ROC,AUC)分别为0.96和0.97,均大于纳入基本资料前后logistic回归模型ROC曲线下面积AUC的0.93和0.93,但二者比较差异无统计学意义(P>0.05);而对测试集,纳入基本资料前后ANN模型鉴别诊断肺癌的AUC分别为0.88和1.0,均大于纳入基本资料前后Logistic回归模型诊断肺癌的AUC的0.82和0.9,但纳入前后AUC相比较差异均无统计学意义(P>0.05);与本课题组先前的研究数据合并扩大样本量后,对于总样本而言,ANN模型预测肺癌的AUC为1.0,Logistic回归模型为1.0,两者比较差异无统计学意义(P>0.05),而对测试集而言,ANN模型预测肺癌的AUC为0.95,Logistic回归模型预测肺癌的AUC为0.85,两者比较差异有统计学意义(P<0.05);ANN联合6种肿瘤标志鉴别诊断正常人-胃良性疾病组-胃癌组的AUC为0.94,小于Logistic回归模型(AUC=1.0),但二者相比较差异无统计学意义(P>0.05);ANN模型鉴别诊断肺癌与胃癌的AUC为0.92,Logistic回归模型鉴别诊断肺癌和胃癌的AUC为0.89,二者比较差异无统计学意义(P>0.05)。结论1.ANN联合6种肿瘤标志的肺癌诊断预测模型具有较高的灵敏度和特异度,证实了本课题组先前建立的ANN肺癌预测模型具有良好的重现性和稳定性;肺癌患者基本临床资料如现病史,肿瘤家族史以及居住环境等基础资料对提高ANN联合肿瘤标志诊断肺癌的灵敏度和特异度有重要意义。2.ANN联合6种肿瘤标志不仅能鉴别肺癌,肺良性疾病和正常人,对胃癌患者、胃良性疾病患者同样具有良好的鉴别能力,而且还可区分肺癌和胃癌患者。3.ANN联合6种肿瘤标志的肿瘤诊断模型在小样本量时与传统的统计分类方法logistic回归分析具有相同的分类预测能力。而在处理大样本量、非线性的数据时ANN模型在鉴别肺癌时更具有优势。