论文部分内容阅读
目的:为了构建一种能够应用于阿尔茨海默病(Alzheimer’s Disease,AD)分类问题和早期轻度认知下降转化问题的机器学习算法,在神经影像上验证预测的准确率,通过考虑特征指标能够找到具有更高预测效能的模型,提高模型在所选数据集上的泛化力,为临床早期诊断AD提供辅助工具。方法:1.数据选择。本研究所使用的数据是国外的阿尔茨海默病神经影像学计划(Alzheimer’s Disease Neuroimaging Initiative,ADNI)公共数据库,根据研究需要选取了543例研究对象,根据患者认知模式发展和功能受损程度将他们分为四组,包括正常认知(normal cognitive,NC)组139例,早期轻度认知功能下降(early mild cognitive impairment,EMCI)组22例,晚期轻度认知功能下降(late mild cognitive impairment,LMCI)组108例以及AD组76例。根据病程发展将四组两两组合共得到六个二分类组,包括NC-EMCI组、NC-LMCI组、NC-AD组、EMCI-LMCI组、EMCI-AD组以及LMCI-AD组。2.数据处理。收集这些研究对象各组对应的结构磁共振成像(Structural magnetic resonance imaging,s MRI)数据以及他们的性别、年龄、教育水平三项人口指标以及MMSE评分统计学资料。通过Freesurfer软件的预处理,将s MRI图像转化为272项特征指标结果,包括68项皮层厚度(Cortical thickness,TA)、69项皮层体积(cortical volumes,CV)、16项海马亚区体积(hippocampal subfields,HS)、70项表面积(surface area,SA)以及49项皮层下体积(subcortical volumes,SV)。本研究针对272项特征数据集和在此基础上融入性别、年龄、教育水平、简易精神状态检查量表(Mini Mental State Examination,MMSE)评分后的276项数据集。3.特征选择。采用L1范数正则化支持向量机(support vector machine,SVM)与L1范数正则化逻辑回归(logistic regression,LR)两种特征选择算法进行特征选择。针对每组得出最优特征子集个数,然后通过探索特征选择后各组中相关度最大的特征来判断该组的病变部位,找到辅助诊断的生物标志物。4.分类模型建立。将每组得出对将选择后的最优特征集放入四种常用的机器学习分类模型中,包括LR、SVM、误差反向传播神经网络(back propagation neural network,BPNN)和随机森林(random forest,RF),将其用于AD病程分类。对比这四种不同机器学习算法的分类性能,从而得到最优的分类预测模型。将数据集分为测试集和样本集,利用十折交叉验证法将四种算法的准确率进行对比,采用敏感度、特异度、受试者工作特征曲线下面积(Area under curve,AUC)值这些指标进行评价。最后,基于SVM和RF这两种分类模型,将L1-LR和L1-SVM这两种特征选择方法与传统统计特征选择方法以及未进行特征选择结果进行对比,得到这四种方法在各组进行分类时的AUC值。结果:1.使用L1-SVM特征选择模型进行特征选择后,在276项特征中,NC-EMCI组的最优特征为121项,其他五组按顺序分别有82、22、113、39、53项特征被选到各个分类模型中。MMSE评分在AD疾病病程的各个阶段都表现出较明显的改变,年龄成为识别NC-LMCI组、EMCI-AD组、LMCI-AD组这三组分类中比较重要的因素。2.使用L1-LR特征选择模型进行特征选择后,在276项特征中,六组分别有67、42、11、56、21、20项被选入分类模型中。MMSE评分在NC-AD组和LMCI-AD组中排第1位。教育水平在NC-AD组排名第7位。年龄这项指标在NC-LMCI、LMCI-AD组中分别排第5和第3位。性别在NC-AD组排第4位。3.将L1-SVM特征选择算法与BPNN算法结合对AD病程转化预测效果更好,但是不同的分类组略有差异。在由NC转化为AD的过程中,准确率高达98.90%,在区分NC-LMCI、EMCI-LMCI以及LMCI-AD组时准确率分别为95.04%、93.01%、92.41%。然而,在识别NC-EMCI组和EMCI-AD组的转化过程中,SVM模型表现最好,准确率分别为85.4%和97.63%。使用L1-LR在276项特征选择下,SVM模型在NC-LMCI和EMCI-AD组的准确率高于其他组,分别为92.26%、96.95%。对于NC-AD组和EMCI-LMCI组RF分类模型的准确率高于其他模型,分别为97.71%和86.74%。4.SVM分类模型经过L1-SVM特征选择后,在276项特征中EMCI-AD组的准确率最高(97.63%),AUC值为0.99。经过L1-LR特征选择后,276项数据中EMCI-AD组的准确率最高,为96.95%,AUC值为0.99。LR分类模型经过L1-SVM特征选择后,276项特征集中预测准确率最高的是EMCI-AD组(95.25%),特异度(98.89%)、AUC值为0.99。经过L1-LR特征选择后,276项特征中EMCI-AD组的准确率最高(96.29%),特异度为98.75%,AUC值为0.99。BPNN分类模型经过L1-SVM特征选择后,276项中NC-AD组的准确率最高(98.90%),特异度、敏感度,AUC值分别为100%、98.75%、1.00。经过L1-LR特征选择后,276项中准确率最高的同样也是NC-AD组,为97.64%。RF分类模型经过L1-SVM特征选择后,276项中同样也是NC-AD组的准确率最高(96.77%),特异度和AUC值分别为98.57%和0.99。经过L1-LR特征选择后,276项中同样也是NC-AD组的准确率最高(97.71%),特异度为98.75%,AUC值为0.99。结论:1.融入三项人口统计资料和认知功能量表后的276特征数据集比272项s MRI特征数据集的分类效果更好,能够更加提高分类模型的预测能力。2.两两分类的各组中得到的最优特征大多分布在边缘系统和颞叶这些结构。3.SVM分类模型在L1-LR特征选择下对病程相近最难区分的EMCI和AD患者的分类预测效果更好。4.BPNN分类模型经过L1-SVM特征选择后对NC和AD患者这两个阶段的预测效能更好。特异度和敏感度也较高,说明漏诊率越低,误诊的比例越低。该模型可以作为临床辅助工具。5.在识别NC-AD转化组时,本研究使用的两种特征选择方法在SVM和RF两种分类模型下的预测效果都较高,但是L1-SVM特征选择法优于L1-LR法。