论文部分内容阅读
阿兹海默症(Alzheimer’s Disease,AD)是一种在老年人中高发的进行性神经退行性疾病,病因未明,病程不可逆。早期诊断与治疗是延缓病情发展的一般措施,对于延长患者存活时间和提高生活质量具有重要意义。目前对AD的分类和轻度认知障碍(Mild Cognitive Impairment,MCI)转化预测研究,主要集中于对影像数据和生化标记物的分析。外周血基因表达数据可以及时反映生理状态和疾病的发展状态,对于AD早期诊断具有潜在的应用价值,但是由于数据获取和分析上存在的挑战还没有得到有效的转化应用。深度学习算法的提出和在多个领域中的成功应用,为基因表达数据的分析和AD相关特征的识别与分类提供了强力的工具。本论文利用堆叠去噪自编码器(stacked-denoise autoencoder,SDAE)开展提取阿兹海默症基因表达特征的研究,辅助AD分类和MCI转化预测。本文将深度学习算法应用于微阵列基因表达数据的分析。使用国际上应用广泛的ADNI(Alzheimer′s disease neuroimaging initiative)专业数据库中的基因表达数据,构建了3层的堆叠去噪自编码器来提取阿兹海默症的基因表达特征,通过使用10折交叉验证实验来优化网络结构参数,确定最优的三个隐层节点数分别为5000、500、50,受损水平分别为0.1,0.2,0.1。利用SDAE提取的基因表达特征构建SVM(Support Vector Machine)分类器,对246名健康人与498名MCI&AD患者的基因表达数据进行分类分析,与原始探针、主成分分析(PCA)和差异表达分析三种特征提取方法进行对比,结果表明,基于SDAE特征的分类结果在准确率、精确率、召回率和AUC这4个性能指标上均要优于三种对照的方法。如果将SDAE的三层特征组合,对阿兹海默症的分类准确率达到100%。对SDAE提取的特征进行进一步的分析,找出对分类贡献较大的节点,以降低特征维度。使用改进的SVM–RFE特征选择方法,从SDAE第一层隐层的5000个节点中,选择43个高贡献节点作为特征,对相同数据集进行分类,其ROC曲线表明在分类性能上只有微弱的下降;同时,使用非高贡献节点为特征的分类性能有大幅度的下降,表明了高贡献节点方法对于样本分类的有效性。提取43个高贡献节点中的5437个高权重探针进行功能分析,KEGG通路富集分析显示,高权重探针显著富集于阿兹海默症、帕金森症和亨廷顿症这三个通路,表明这些基因与这三种神经性疾病的高度相关;同时通路聚类结果表明,非酒精性脂肪肝也与这三个通路具有较强的相关性,隐含着它们存在共同的分子机制。比较高权重探针作为特征和基于高权重探针构建的SDAE特征的分类结果,发现SDAE特征节点的分类效果更好。将这些SDAE特征应用于GSE6613数据集的分析,其分类性能明显优于采用原始探针数据、主成分分析和差异表达分析等方法,进一步验证了SDAE特征节点具有较好的分类效果,SDAE更为有效地提取了基因表达数据中的分类特征。对ADNI数据库中80名MCI转化为AD的患者和271名MCI未转化为AD患者构建基于堆叠去噪自编码器的MCI转化预测模型。与原始探针值、主成分分析和差异表达分析方法进行比较,SDAE模型可以显著地提升预测结果。采用SDAE三层组合特征,分类准确率为0.8577,精确率为0.8720,召回率为0.9240,AUC值为0.91。对SDAE第一隐层的5000个节点进行特征筛选,以338个高权重探针形成52个新特征,其分类性能下降较大,准确率只有0.7746。但是相比主成分分析和差异表达分析,SDAE特征对于MCI转化预测仍然具有优势。本文立足于对基因表达数据的特征提取和分类预测,构建了基于堆叠去噪自编码器的AD分类和MCI转化预测模型,取得了良好的效果,再一次表明了SDAE在表达数据特征提取中的优越性,对于整合更多生物标志物辅助AD早期诊断具有重要意义。