论文部分内容阅读
骨肿瘤发病率相对较低,但恶性骨肿瘤却是青少年患者死亡的主要原因,严重危害人类健康。早期明确肿瘤性质、及时选择正确的临床治疗策略是提高患者生存率的关键。因此,术前对骨肿瘤良恶性的分类具有重要的临床价值。数字化X线摄影(Digital Radiography,DR)因具备空间分辨率高、检查快捷方便、价格低廉等特点,是骨肿瘤诊断的首选影像检查方法。临床工作中,骨肿瘤的分类主要依靠放射科医生全面的分析病灶,从中提取影像征象,随后重点评估对骨肿瘤诊断最重要的X线征象,并结合临床信息得出最终的诊断结果。但由于骨肿瘤相对少见且发病种类繁多、影像表现复杂,放射科医生尤其是低年资医生很难有足够的诊断经验准确识别重要的影像征象,从而为临床治疗提供可靠的骨肿瘤分类信息。本研究基于数字化X线影像征象及临床信息构建多种骨肿瘤的机器学习(Machine Learning,ML)分类模型,确定对骨肿瘤分类最重要的影像特征,以病理结果为金标准,评估各模型的分类性能及临床应用价值。课题分为两部分,第一部分构建逻辑回归(Logistic Regression,LR)、决策树(Decision Tree,DT)、随机森林(Random Forest,RF)及支持向量机(Support Vector Machine,SVM)模型,在模型训练构建过程中利用SHAP(SHapley Additive exPlanations)值算法比较各模型得出的对骨肿瘤诊断重要的影像征象并按照重要程度排序,同时以AUC值(Area Under Curve)为评价指标在测试集中评估模型的分类性能。第二部分选择3名放射医师进行独立阅片,探索重要影像特征等提示信息对诊断医师临床工作的辅助价值,并比较不同医师与最优模型之间的分类性能。一、材料与方法1、病例资料回顾性收集南方医科大学南方医院2014年1月~2019年9月经手术病理证实的557例骨肿瘤患者的病例资料,其中良性289例,中间型118例,恶性150例。另外搜集佛山市中医院及香港大学深圳医院2018年5月~2019年8月骨肿瘤239例,其中良性123例,中间型51例,恶性65例。纳入标准如下:①术前进行了病变部位的DR检查;②单发病灶;③经手术后病理证实。排除标准:①手术病理结果不明确;②图像中存在异物,影响观察;③手术后复发的病例;④病灶位于重叠组织较多的部位,观察受限。2、特征提取由3名具备5年以上工作经验的骨关节专业放射科医师对入组病例的数字化X线摄影图像进行独立阅片,并给出图像中每一个影像学征象的评分,综合3位医师的评分得出最终的影像学征象。临床信息通过电子病历获取。3、模型构建基于医生提取的影像学征象及临床信息构建LR、DT、RF及SVM模型,对骨肿瘤进行良恶性二分类及良性、中间型和恶性三分类研究。随后,选用SHAP值这一解释模型输出结果的重要方法,评估对骨肿瘤诊断最重要的影像特征。以AUC值为评价指标选出性能最优的机器学习模型。4、阅片实验选择低年资(1~3年工作经验)、中年资(3年以上、5年以下工作经验)和高年资(5年以上工作经验)3名放射科医师对骨肿瘤二分类及三分类病例进行独立阅片,每位医师都要进行三次阅片,并对比三次阅片实验的诊断效能,同时与最优模型进行对比分析。第一次:每位医师独立阅片后对骨肿瘤病灶进行评分。第二次:向每位医师额外提供SVM模型评估得出的重要特征,诊断医师根据图像及提供的重要特征对骨肿瘤病灶做出评分。第三次:向每位医师额外提供SVM模型得出的重要特征及分类结果,诊断医师根据图像及提示信息做出最终评分。评分选择十分制,0分代表肯定良性,10分代表肯定恶性。二分类中,1~2分:几乎肯定是良性;3~4分:很大可能是良性;5分:可能是良性;6分:可能是恶性;7~8分:很大可能是恶性;9~10分:几乎肯定是恶性。三分类中,1~2分:很大可能是良性;3~4分:可能是良性;5~6分:可能是中间型;7分:很大可能是中间型;8~9分:可能是恶性;10分:很大可能是恶性。5、统计学分析使用SPSS 22.0及MedCalc软件进行数据分析,计量资料用均值±标准差表示;用单因素方差分析比较良性、恶性或中间性骨肿瘤患者的临床变量,方差齐性时选择LSD法;方差不齐时选择Welch近似方差分析。各机器学习模型间、放射诊断医师间及最优模型与诊断医师间的AUC值差异性通过DeLong检验分析,以上结果P<0.05时认为差异具有统计学意义。二、第一部分研究结果1、二分类及三分类机器学习模型数据集二分类模型中,训练集438例,良性298例,恶性140例;测试集189例,良性114例,恶性75例。三分类模型中,训练集557例,良性289例,中间型118例,恶性150例;测试集239例,良性123例,中间型51例,恶性65例。2、骨肿瘤患者临床信息除性别之外(P=0.84),模型纳入的临床信息与骨肿瘤分类间皆有相关性。恶性骨肿瘤患者的平均年龄明显高于良性和中间型骨肿瘤患者(平均年龄分别为 33 岁、23 岁及 24 岁;P<0.001)。3、影像学特征重要性评估根据模型输出的SHAP值结果,各二分类及三分类模型中对骨肿瘤分类结果最重要的特征均为病灶边缘。二分类任务中,各模型都将病灶边缘、骨皮质受累情况和病灶内高密度成分评估为诊断价值相对突出的特征,而三分类任务中,边缘和病灶内高密度成分是各模型共同评估为重要性排名靠前的特征。4、机器学习模型的分类性能二分类任务中,DT、RF、LR及SVM模型的AUC值分别为0.917、0.973、0.973、0.976,LR、RF及SVM模型的AUC值均高于DT模型,且差异有统计学意义(P<0.05),LR、RF、SVM三者间的AUC值差异无统计学意义(P>0.05)。三分类任务中,DT、RF、LR及SVM模型的平均AUC值分别为0.821、0.935、0.930和0.944。LR、RF及SVM模型的AUC值均高于DT模型,且差异有统计学意义(P<0.05),RF和SVM模型、LR和SVM模型的AUC值差异无统计学意义(P>0.05)。而LR和RF模型在良性、恶性骨肿瘤的AUC值差异性均有统计学意义(P<0.05)。结合二分类和三分类结果,本研究选择SVM模型为性能最优模型。三、第二部分研究结果1、不同年资诊断医师骨肿瘤分类性能及与SVM模型对比结果诊断医师在无任何提示信息的情况下进行阅片,低、中、高年资医师的骨肿瘤良恶性分类的AUC值分别为0.894、0.908和0.991;三分类中,低中高年资医师诊断良性骨肿瘤的AUC值分别为0.821、0.825和0.949,诊断恶性骨肿瘤的AUC值分别为0.842、0.886和0.988,诊断中间型骨肿瘤的AUC值分别为0.763、0.732 和 0.737。在各分类结果中,高年资医师诊断骨肿瘤的AUC值均高于低年资和中年资医师,且差异有统计学意义(P<0.05),低年资和中年资医师间的差异性无统计学意义(P>0.05)。SVM模型分类性能与高年资医师水平相当(P>0.05),且高于低年资和中年资诊断医师,差异有统计学意义(P<0.05)。2、诊断医师在机器学习模型辅助下的诊断性能①诊断医师在获取最重要特征的辅助信息下进行第二次阅片,低、中、高年资医师的诊断AUC值均高于独立阅片实验间,但差异无统计学意义(P>0.05)。低年资医师和中年资医师在重要特征辅助下,骨肿瘤二分类的诊断性能与SVM模型之间的差异无统计学意义(P>0.05)。高年资医师在骨肿瘤三分类任务中诊断性能优于SVM模型,差异有统计学意义(P<0.05)。②诊断医师在获取最重要特征及模型分类结果的辅助信息下进行第三次阅片实验,二分类任务中,低、中、高年资医师的骨肿瘤分类AUC值均高于独立阅片,三次阅片实验之间的差异无统计学意义,中年资医师与SVM之间的诊断结果差异无统计学意义(P>0.05)。三分类任务中,低年资医师的诊断AUC值高于第一次独立阅片实验结果,且差异有统计学意义(P<0.05)。其中,低年资医师诊断良性、恶性骨肿瘤的AUC值低于SVM模型,差异有统计学意义(P<0.05);中年资医师第三次阅片实验的诊断AUC值均高于前两次阅片实验诊断结果,且差异有统计学意义(P<0.05),中年资医师的三分类诊断结果与SVM模型间的差异无统计学意义(P>0.05);高年资医师的第三次阅片实验AUC值高于独立阅片实验,三次阅片实验间的差异均无统计学意义(P>0.05),而且高年资医师的诊断AUC值高于SVM模型,差异有统计学意义(P<0.05)。四、结论1、目前大多数机器学习往往是类似于“黑盒子”的结构,只能输出模型结果,而不能解释其原理及依据,本研究基于数字化X线征象和临床信息构建骨肿瘤分类模型,并利用SHAP值探索对骨肿瘤分类最重要的特征,解释模型的输出结果。在二分类及三分类任务中,各分类模型得出的最重要特征均为病灶的边缘,提示临床诊断医师在骨肿瘤鉴别诊断工作中应尤其重视病灶边缘的评估。2、机器学习模型对各种骨肿瘤的诊断准确性不同,良性骨肿瘤中的骨软骨瘤、非骨化性纤维瘤和内生性软骨瘤等准确性高,而血管瘤和良性纤维组织细胞瘤等准确性较低。恶性骨肿瘤中骨肉瘤、转移瘤和骨淋巴瘤等准确性高,而恶性纤维组织细胞瘤和尤文肉瘤等准确性偏低。3、本研究构建的各机器学习模型均提供了可靠的分类结果(AUC>0.80),可以在一定程度上为临床治疗方案的制定提供辅助信息。总体来说,RF、LR和SVM模型的分类性能均优于DT模型,且SVM模型的AUC值最高,分类性能可以与高年资诊断医师相媲美。4、各分类模型在三分类任务中的AUC值均低于二分类任务,且三位诊断医师和各机器学习模型对中间型骨肿瘤的诊断性能最低,这可能是由于中间型骨肿瘤与良恶性骨肿瘤相比,生物学行为界限模糊,缺乏重要鉴别意义的数字化X线征象,因此机器学习分类模型和医师容易将其错误的归类为良性或恶性骨肿瘤,造成诊断性能的降低。5、阅片实验中不同年资诊断医师对骨肿瘤的分类性能存在差异,低年资和中年资医师由于缺乏骨肿瘤的诊断经验,诊断性能均低于高年资医师。三次阅片实验中,诊断医师在获取SVM模型辅助的情况下对骨肿瘤的诊断性能有一定程度的提升,其中以模型分类结果和重要X线征象一起提供给诊断医师辅助价值最大。