论文部分内容阅读
背景和目的:
利用高维组学数据(基因组学、代谢组学、影像组学等)对疾病进行辅助诊断、亚型判别等对个性化诊疗具有重要意义。因为各种疾病类型及亚型的患病率不尽相同且相差悬殊,因此这些高维组学数据通常为多分类不平衡数据。多分类不平衡数据是指在数据集中一个或多个类别的构成比较小(少数类)而其它类别的构成比较大(多数类)。针对平衡数据构造的传统判别模型,通常以总体判别准确率作为优化目标。当这些模型被直接应用于非平衡问题时往往倾向于将更多的观测预测为多数类,从而导致其对少数类别的判别性能严重降低。如何针对多分类不平衡问题构造效果良好的判别模型一直是研究者关心的问题。此外,由于多分类判别模型的决策边界复杂度较高,直接针对多个类别构建不平衡判别模型往往难以达到理想的效果。为此,本研究针对这两个问题,分别提出了两种新的多分类不平衡判别算法,并利用模拟实验和实例数据对这两种新算法的判别性能进行验证。此外,在应用研究部分,本研究利用影像组学技术,构建了常见颅内肿瘤的影像组学数据库,并利用这一典型的多分类不平衡数据和本研究提出的算法构建常见颅内肿瘤的辅助诊断模型,为颅内肿瘤诊断决策提供新的辅助手段。
方法:
在模型理论研究中,本研究首先提出了两种基于拆解策略的多分类不平衡判别算法:ACM(Adaptive adjust Coding Method)算法和APM(Adaptive PredictionMoving)算法。ACM算法在利用编码矩阵和预测值向量之间的距离对基础分类器进行集成时,自适应地调整了编码矩阵中各类别的编码,从而降低了对基础分类器校准度的要求;APM算法依据集成后的判别效果自适应、反馈性地对所有基础分类器的预测值同时进行调整,从而达到最优的预测结果。然后,利用模拟实验探索了样本量和不平衡率对ACM算法、APM算法和其它7种常用的基于拆解策略的多分类不平衡算法判别性能的影响。模拟实验利用联合正态分布生成了三分类不平衡数据,并设置了不同的样本量和不平衡率情况。其中,不平衡率分别设置为1∶2∶3,1∶3∶5,1∶5∶7,1∶7∶11,例数最少的类别(最小类别)样本量分别设置为20,30,50,其它类别的样本量依次根据最小类别的样本量和不平衡率进行设置。最后本研究在TOX-171、MLL、SRBCT、Lymphoma、Breast五个公认的多分类不平衡基因微阵列数据集上用F值、G-mean、MAUC三个评价指标对ACM算法、APM算法与其它算法的判别性能进行了对比。
在应用研究中,本研究收集了临沂市人民医院2011年至2016年病理确认的474名新发颅内肿瘤患者的数据资料,包括:病历资料、MRI图像(T2 FLAIR、T1加强矢状位、T1加强冠状位、T1加强轴位共四种序列)和影像检查报告。本研究利用影像组学技术从四种序列MRI图像中共提取了336个影像组学特征,而且通过对影像检查报告结构化提取了肿瘤侵及位置。基于这些数据,利用本研究提出的APM算法构建常见颅内肿瘤辅助诊断模型。
结果:
模拟实验结果显示,在不同样本量和不同不平衡率情况下,ACM算法和APM算法的判别性能均好于其它算法。当样本量较小(Nminimun=20)时,所有算法的F值均随着不平衡率的增大而呈现下降趋势,但是ACM算法和APM算法受不平衡率的影响更小。从不平衡率等于1∶3∶5开始,ACM算法和APM算法相对于其它算法的优势越来越明显。尤其是当不平衡率等于1∶5∶7时,除了ACM算法和APM算法外,其它算法的F值均在0.7以下。不过,APM算法的判别性能略微低于ACM算法。当样本量增大(Nminimun=50)时,所有算法的F值均有所提高,而且ACM算法和APM算法的F值在不同不平衡率情况下均高于其它算法,除这两个算法外,其它算法的F值均低于0.8。并且,ACM算法和APM算法的判别性能十分接近。
在5个基因微阵列数据集上,ACM算法和APM算法对所有类别的综合判别性能总体上均优于其它算法。在TOX数据集上,当以F值作为评价指标时,APM算法的判别性能最好,达到0.845;当以G-mean作为评价指标时,ACM算法的判别性能最好,达到0.836。在MLL数据集上,APM算法的F值、G-mean和MAUC分别为0.951、0.951和0.966,这三个评价指标均高于其它算法;ACM算法的F值、G-mean和MAUC分别为0.943、0.941和0.960,仅次于APM算法。在SRBCT数据集上,ACM算法的F值、G-mean和MAUC分别为0.996、0.996和0.997,均是所有算法中最高的;APM算法的F值、G-mean和MAUC分别为0.992、0.990和0.994,仅次于ACM算法。在Lymphoma数据集上,APM算法的F值、G-mean和MAUC分别为0.993、0.997和0.997,优于其它算法;ACM算法的F值、G-mean和MAUC分别为0.989、0.995和0.996,仅次于APM算法。在Breast数据集上,当以F值作为评价指标时,ACM算法的判别性能最好,其值为0.874;当以G-mean或MAUC作为评价指标时,APM算法的判别性能最好,其值分别为0.893和0.920。
此外,在5个基因微阵列数据集上,ACM算法和APM算法对各类别单独的判别性能总体上也优于其它算法。在TOX数据集上,APM算法对4个类别判别的F值分别为0.919、0.889、0.747和0.833,除了在第3个类别上略低于ACM算法(F值:0.756)外,在所有类别上均优于其它算法。在MLL数据集上,APM算法对3个类别判别的F值分别为0.929、0.988和0.933,除了在第3个类别上略低于ACM算法(F值:0.935)外,在所有类别上均优于其它算法。在SRBCT数据集上,ACM算法对4个类别判别的F值分别为1、1、0.992和0.993,在所有类别上均优于其它算法。在Lymphoma数据集上,APM算法对3个类别判别的F值分别为0.979、1和0.995,虽然在第3个类别上比其它算法略低,但是在第1、2个类别上较其它算法有明显提升。在Breast数据集上,ACM算法在3个类别上的F值分别为0.742、0.939和0.941,除了在第2个类别上略低于其它算法外,在其它类别上均优于其它算法。
在应用研究中,474名患者的病理类型包括:260例脑膜瘤、118例弥漫性星形细胞和少突胶质细胞肿瘤、40例颅神经和脊神经肿瘤、38例鞍区肿瘤和18例间叶细胞、非脑膜上皮肿瘤,是典型的多分类不平衡数据。从4种MRI序列中共提取了336个影像组学特征。其中,有306(91.07%)个特征在五种颅内肿瘤之间具有显著性差异(FDR<0.0001)。此外,不同类型肿瘤对大脑区域不同位置的侵及频率也呈现明显的不同。基于影像组学特征和肿瘤侵及位置,利用APM算法构建的辅助诊断模型具有良好的肿瘤判别能力:总的F值为0.844。此外,在各肿瘤类型上单独的判别效果为:弥漫性星形细胞和少突胶质细胞肿瘤的F值为0.884,脑膜瘤的F值为0.959,间叶细胞、非脑膜上皮肿瘤的F值为0.621,颅神经和脊神经肿瘤的F值为0.925,鞍区肿瘤的F值为0.886。
结论
本研究为多分类不平衡判别问题提供了两种新型的判别算法:ACM算法和APM算法,并且在模拟数据和5个微阵列实例数据上对这两种算法的判别性能进行了验证。主要结论有:(1) ACM算法降低了对基础分类器校准度的要求,在模拟数据和实例数据分析中均取得了优于拆解策略与其它常见二分类不平衡判别模型结合的判别效果。(2) APM算法依据最终预测结果的判别性能对所有基础分类器同时进行优化,在模拟数据和实例数据中也取得了优于其它算法的判别效果。(3)与其它算法相比,ACM算法和APM算法在几乎没有降低对多数类别判别效果的情况下,明显地提升了对少数类别(或者较难判别的类别)的判别效果。(4)模拟实验结果显示在样本量较小的情况下,由于ACM算法结构更为简单所以其判别性能略优于APM算法。不过,在实例数据分析中,由于APM算法的模型优化目标更有针对性所以在多数情况下其判别性能略优于ACM算法。因此,在样本量足够的情况下,更加推荐使用APM算法。
在应用研究中,针对颅内肿瘤辅助诊断这一典型的多分类不平衡判别问题,本研究利用所提出的APM算法构建常见颅内肿瘤辅助诊断模型,可以用于辅助医生的诊断工作,为开颅手术之前制定和优化手术方案提供参考依据。主要结论有:(1)在所有336个影像组学特征中,有306(91.07%)个特征在五种颅内肿瘤之间具有显著性差异(FDR<0.0001),显示影像组学特征充分挖掘了MRI图像的几何特性、纹理特性等特征信息,对颅内肿瘤具有很强的区分能力。此外,肿瘤侵及位置也对颅内肿瘤具有较强的判别能力。(2)本研究利用影像组学特征和肿瘤侵及位置以及APM算法构建的辅助诊断模型具有良好的颅内肿瘤判别能力(F值:0.844),优于其它基于拆解策略的多分类不平衡判别算法,具备较好的临床应用价值。
利用高维组学数据(基因组学、代谢组学、影像组学等)对疾病进行辅助诊断、亚型判别等对个性化诊疗具有重要意义。因为各种疾病类型及亚型的患病率不尽相同且相差悬殊,因此这些高维组学数据通常为多分类不平衡数据。多分类不平衡数据是指在数据集中一个或多个类别的构成比较小(少数类)而其它类别的构成比较大(多数类)。针对平衡数据构造的传统判别模型,通常以总体判别准确率作为优化目标。当这些模型被直接应用于非平衡问题时往往倾向于将更多的观测预测为多数类,从而导致其对少数类别的判别性能严重降低。如何针对多分类不平衡问题构造效果良好的判别模型一直是研究者关心的问题。此外,由于多分类判别模型的决策边界复杂度较高,直接针对多个类别构建不平衡判别模型往往难以达到理想的效果。为此,本研究针对这两个问题,分别提出了两种新的多分类不平衡判别算法,并利用模拟实验和实例数据对这两种新算法的判别性能进行验证。此外,在应用研究部分,本研究利用影像组学技术,构建了常见颅内肿瘤的影像组学数据库,并利用这一典型的多分类不平衡数据和本研究提出的算法构建常见颅内肿瘤的辅助诊断模型,为颅内肿瘤诊断决策提供新的辅助手段。
方法:
在模型理论研究中,本研究首先提出了两种基于拆解策略的多分类不平衡判别算法:ACM(Adaptive adjust Coding Method)算法和APM(Adaptive PredictionMoving)算法。ACM算法在利用编码矩阵和预测值向量之间的距离对基础分类器进行集成时,自适应地调整了编码矩阵中各类别的编码,从而降低了对基础分类器校准度的要求;APM算法依据集成后的判别效果自适应、反馈性地对所有基础分类器的预测值同时进行调整,从而达到最优的预测结果。然后,利用模拟实验探索了样本量和不平衡率对ACM算法、APM算法和其它7种常用的基于拆解策略的多分类不平衡算法判别性能的影响。模拟实验利用联合正态分布生成了三分类不平衡数据,并设置了不同的样本量和不平衡率情况。其中,不平衡率分别设置为1∶2∶3,1∶3∶5,1∶5∶7,1∶7∶11,例数最少的类别(最小类别)样本量分别设置为20,30,50,其它类别的样本量依次根据最小类别的样本量和不平衡率进行设置。最后本研究在TOX-171、MLL、SRBCT、Lymphoma、Breast五个公认的多分类不平衡基因微阵列数据集上用F值、G-mean、MAUC三个评价指标对ACM算法、APM算法与其它算法的判别性能进行了对比。
在应用研究中,本研究收集了临沂市人民医院2011年至2016年病理确认的474名新发颅内肿瘤患者的数据资料,包括:病历资料、MRI图像(T2 FLAIR、T1加强矢状位、T1加强冠状位、T1加强轴位共四种序列)和影像检查报告。本研究利用影像组学技术从四种序列MRI图像中共提取了336个影像组学特征,而且通过对影像检查报告结构化提取了肿瘤侵及位置。基于这些数据,利用本研究提出的APM算法构建常见颅内肿瘤辅助诊断模型。
结果:
模拟实验结果显示,在不同样本量和不同不平衡率情况下,ACM算法和APM算法的判别性能均好于其它算法。当样本量较小(Nminimun=20)时,所有算法的F值均随着不平衡率的增大而呈现下降趋势,但是ACM算法和APM算法受不平衡率的影响更小。从不平衡率等于1∶3∶5开始,ACM算法和APM算法相对于其它算法的优势越来越明显。尤其是当不平衡率等于1∶5∶7时,除了ACM算法和APM算法外,其它算法的F值均在0.7以下。不过,APM算法的判别性能略微低于ACM算法。当样本量增大(Nminimun=50)时,所有算法的F值均有所提高,而且ACM算法和APM算法的F值在不同不平衡率情况下均高于其它算法,除这两个算法外,其它算法的F值均低于0.8。并且,ACM算法和APM算法的判别性能十分接近。
在5个基因微阵列数据集上,ACM算法和APM算法对所有类别的综合判别性能总体上均优于其它算法。在TOX数据集上,当以F值作为评价指标时,APM算法的判别性能最好,达到0.845;当以G-mean作为评价指标时,ACM算法的判别性能最好,达到0.836。在MLL数据集上,APM算法的F值、G-mean和MAUC分别为0.951、0.951和0.966,这三个评价指标均高于其它算法;ACM算法的F值、G-mean和MAUC分别为0.943、0.941和0.960,仅次于APM算法。在SRBCT数据集上,ACM算法的F值、G-mean和MAUC分别为0.996、0.996和0.997,均是所有算法中最高的;APM算法的F值、G-mean和MAUC分别为0.992、0.990和0.994,仅次于ACM算法。在Lymphoma数据集上,APM算法的F值、G-mean和MAUC分别为0.993、0.997和0.997,优于其它算法;ACM算法的F值、G-mean和MAUC分别为0.989、0.995和0.996,仅次于APM算法。在Breast数据集上,当以F值作为评价指标时,ACM算法的判别性能最好,其值为0.874;当以G-mean或MAUC作为评价指标时,APM算法的判别性能最好,其值分别为0.893和0.920。
此外,在5个基因微阵列数据集上,ACM算法和APM算法对各类别单独的判别性能总体上也优于其它算法。在TOX数据集上,APM算法对4个类别判别的F值分别为0.919、0.889、0.747和0.833,除了在第3个类别上略低于ACM算法(F值:0.756)外,在所有类别上均优于其它算法。在MLL数据集上,APM算法对3个类别判别的F值分别为0.929、0.988和0.933,除了在第3个类别上略低于ACM算法(F值:0.935)外,在所有类别上均优于其它算法。在SRBCT数据集上,ACM算法对4个类别判别的F值分别为1、1、0.992和0.993,在所有类别上均优于其它算法。在Lymphoma数据集上,APM算法对3个类别判别的F值分别为0.979、1和0.995,虽然在第3个类别上比其它算法略低,但是在第1、2个类别上较其它算法有明显提升。在Breast数据集上,ACM算法在3个类别上的F值分别为0.742、0.939和0.941,除了在第2个类别上略低于其它算法外,在其它类别上均优于其它算法。
在应用研究中,474名患者的病理类型包括:260例脑膜瘤、118例弥漫性星形细胞和少突胶质细胞肿瘤、40例颅神经和脊神经肿瘤、38例鞍区肿瘤和18例间叶细胞、非脑膜上皮肿瘤,是典型的多分类不平衡数据。从4种MRI序列中共提取了336个影像组学特征。其中,有306(91.07%)个特征在五种颅内肿瘤之间具有显著性差异(FDR<0.0001)。此外,不同类型肿瘤对大脑区域不同位置的侵及频率也呈现明显的不同。基于影像组学特征和肿瘤侵及位置,利用APM算法构建的辅助诊断模型具有良好的肿瘤判别能力:总的F值为0.844。此外,在各肿瘤类型上单独的判别效果为:弥漫性星形细胞和少突胶质细胞肿瘤的F值为0.884,脑膜瘤的F值为0.959,间叶细胞、非脑膜上皮肿瘤的F值为0.621,颅神经和脊神经肿瘤的F值为0.925,鞍区肿瘤的F值为0.886。
结论
本研究为多分类不平衡判别问题提供了两种新型的判别算法:ACM算法和APM算法,并且在模拟数据和5个微阵列实例数据上对这两种算法的判别性能进行了验证。主要结论有:(1) ACM算法降低了对基础分类器校准度的要求,在模拟数据和实例数据分析中均取得了优于拆解策略与其它常见二分类不平衡判别模型结合的判别效果。(2) APM算法依据最终预测结果的判别性能对所有基础分类器同时进行优化,在模拟数据和实例数据中也取得了优于其它算法的判别效果。(3)与其它算法相比,ACM算法和APM算法在几乎没有降低对多数类别判别效果的情况下,明显地提升了对少数类别(或者较难判别的类别)的判别效果。(4)模拟实验结果显示在样本量较小的情况下,由于ACM算法结构更为简单所以其判别性能略优于APM算法。不过,在实例数据分析中,由于APM算法的模型优化目标更有针对性所以在多数情况下其判别性能略优于ACM算法。因此,在样本量足够的情况下,更加推荐使用APM算法。
在应用研究中,针对颅内肿瘤辅助诊断这一典型的多分类不平衡判别问题,本研究利用所提出的APM算法构建常见颅内肿瘤辅助诊断模型,可以用于辅助医生的诊断工作,为开颅手术之前制定和优化手术方案提供参考依据。主要结论有:(1)在所有336个影像组学特征中,有306(91.07%)个特征在五种颅内肿瘤之间具有显著性差异(FDR<0.0001),显示影像组学特征充分挖掘了MRI图像的几何特性、纹理特性等特征信息,对颅内肿瘤具有很强的区分能力。此外,肿瘤侵及位置也对颅内肿瘤具有较强的判别能力。(2)本研究利用影像组学特征和肿瘤侵及位置以及APM算法构建的辅助诊断模型具有良好的颅内肿瘤判别能力(F值:0.844),优于其它基于拆解策略的多分类不平衡判别算法,具备较好的临床应用价值。