论文部分内容阅读
第一部分:基于U-Net网络的自编码器在阿尔茨海默病诊断中的应用目的:目前大部分应用于诊断阿尔茨海默病(Alzheimer’s disease,AD)的深度学习模型都依赖于有监督学习。有监督学习需要收集训练手动标记,但对于AD病人来说,有监督学习会因为训练难度导致样本不足而影响模型的效果。本研究旨在前人工作基础上,构建基于U-Net网络的卷积自编码器(Convolutional Auto-Encoder,CAE)和K-Means聚类算法的阿尔茨海默病诊断系统模型,不仅实现全程无监督学习,且能用于探究AD病人原影像与生成影像差异。方法:本研究连续纳入2017年1月至2020年1月就诊于浙江大学医学院附属第一医院记忆障碍门诊拟诊为阿尔茨海默病病人。记录病人基本人口统计学资料、神经心理量表评估及磁共振数据。根据临床诊断分为阿尔茨海默病组、轻度认知障碍(Mild Cognitive Impairment,MCI)组和健康对照(Healthy Control,HC)组,对三组基线数据进行统计学分析,构建基于U-Net网络的CAE并利用ADNI数据库中的健康人群结构磁共振影像进行训练。训练后的模型利用预处理后的原始磁共振影像生成重建磁共振影像,比较他们之间差异,并根据他们的横断位和冠状位误差函数进行K-Means聚类分析,获得准确率。结果:本研究共纳入148例病人,其中AD组25例,MCI组67例,HC组56例。通过生成影像与原始影像对比,并用高亮部分表示两者中差异较大区域,发现高亮部分大部分位于脑沟、脑室及海马萎缩后的空隙部分,且其中AD组高亮部分面积大于HC。对冠状位和横断位误差函数进行统计学分析,发现AD、MCI、HC三组中冠状位误差函数依次递减,两两之间在统计学上存在显著性差异(p<0.05);AD、MCI、HC三组中横断位误差函数也依次递减,且AD组和HC组以及AD组和MCI组之间在统计学上均存在显著性差异(p<0.01)。对AD组和HC组聚类分析后得到诊断准确率为88.89%。结论:利用由正常人群训练得到的深度学习模型可以用于生成其余病人的影像,并且通过原始影像和生成影像的生成误差,可以用来实现全程无监督学习,并且在分类诊断中得到不错的准确率。第二部分:基于机器学习的阿尔茨海默病诊断模型建立及特征选取目的:机器学习(Machine Learning,ML)建模中可解释性一直是一个饱受困扰的难题。这会使临床医生对利用机器学习进行预测的结果无法理解。另外不同的机器学习方法适用的数据量和特征数量均有不同,对于不同问题需要选择合适的机器学习算法。本研究旨在前人工作基础上,比较不同的线性和非线性分类器对AD与HC、MCI与HC、AD与MCI与HC的二分类/三分类效果以及获取性能最好的分类器,对数据进行特征选择,并将特征选择结果与临床应用中的重要程度进行比较。方法:本研究连续纳入2017年1月至2020年12月就诊于浙江大学医学院附属第一医院记忆障碍门诊拟诊为阿尔茨海默病病人。记录病人基本人口统计学资料、神经心理量表评估、磁共振数据及基因分型结果。根据临床诊断分为阿尔茨海默病组、轻度认知障碍(Mild Cognitive Impairment,MCI)组和健康对照(Healthy Control,HC)组,对三组基线数据进行统计学分析,构建15种机器学习模型,并利用记录的变量进行AD组与HC组、MCI组与HC组、AD组与MCI组与HC组的分类诊断。综合考虑模型评价指标,选择最优模型后进行特征重要性排序和特征筛选。结果:研究共纳入251例病人,其中AD组64例,MCI组109例,HC组78例。在AD组和HC组二分类诊断中,随机森林和极限树分类器得到了最高的准确率98.00%,并经过特征筛选选取了13个特征,特征重要性最高的几项分别为Mo CA评分、MMSE评分、CDR各域总分;在MCI组和HC组二分类诊断中,随机森林分类器得到了最高的准确率90.77%,并经过特征筛选选取了19个特征,特征重要性最高的几项分别为Mo CA评分、脑脊液体积和白质体积;在AD组、MCI组和HC组三分类诊断中,随机森林分类器得到了最高的准确率90.33%,特征重要性最高的几项分别为Mo CA评分、MMSE评分、脑脊液体积。结论:相较于其他机器学习方法,利用随机森林树能很好的适应小样本量和少量特征情况下的预测。并且对于特征重要性排序和特征选择的结果,很好的符合临床情况,利用特征工程方法,可以在寻找新的诊断标记物时提供量化指标,并且给模型提供可解释性。