论文部分内容阅读
目的:探讨基于机器学习的影像组学模型预测周围型肺癌Ki-67表达水平的可行性和性能。材料与方法:搜集2016年1月至2019年10月经病理证实且具有完整的临床资料并行免疫组织化学的周围型肺癌417例,采用留一法将其分为训练队列(293例)和验证队列(124例)。所有患者均行双期CT动态增强检查,从每例患者的CT动脉期及静脉期图像中分别提取396个组学特征。采用适合于高维数据的最小绝对收缩算子法(LASSO)降维分析进行特征筛选,选择有意义的特征并在训练队列中建立影像组学标签。使用多因素回归分析来建立三种模型(影像组学模型、临床病理模型、影像组学诺模图)。最后,ROC曲线及曲线下面积(AUC)用来评价三种模型的预测效能,在训练队列和验证队列中采用决策曲线分析来评估影像组学诺模图的临床实用性。Delong检验用于比较三种模型之间预测效能是否具有显著差异。采用校正曲线来评价影像组学诺模图的校正效果,最后Hosmer-Lemeshow(H-L)检验用于分析风险率预测值和观测概率之间是否有显著差异。临床病理特征包括:年龄、性别、吸烟史、组织学类型、肿瘤分期及CT征象;其中CT征象包括:肿瘤最大直径(Dmax)、分叶征、毛刺征、空洞、液化坏死、胸膜凹陷、空泡征、空气支气管征、血管集束征。患者Ki-67表达水平在临床病理特征上的差异采用Wilcox-on秩和检验或Fisher检验,并进行单、多因素Logistic回归分析,对Ki-67表达水平与临床病理特征进行相关分析并用于建立临床病理模型。p<0.05即差异有统计学意义。结果:本研究中,训练队列中Ki-67高表达组73例(24.9%),低表达组220例(75.1%)。Ki-67高表达和低表达组在性别、吸烟、组织学类型和肿瘤分期有显著性差异(P值均<0.05)。Ki-67高表达在吸烟、男性、腺癌更为常见,Ki-67低表达在早期患者中更为常见。验证队列中Ki-67高表达组31例(25.0%),低表达组93例(75.0%)。Ki-67高表达组和低表达组在性别、组织学类型和肿瘤分期有显著性差异(P值均<0.05)。Ki-67高表达在男性、腺癌中更为常见,Ki-67低表达在早期患者中更为常见。在训练组中,病灶内含有空洞、液化坏死、肿瘤较大、具有分叶征的患者Ki-67多呈高表达(p<0.05)。在验证队列中,病灶内含有液化坏死、肿瘤较大、具有胸膜凹陷征的患者Ki-67多呈高表达(p<0.05)。在动脉期中,经单因素分析结果显示:Ki-67表达水平与性别、吸烟状况、肿瘤临床分期、组织学类型、肿瘤最大径(Dmax)、空气支气管征、分叶征、毛刺征及血管集束征均有统计学意义(p<0.05)。多因素logistic回归分析表明:组织学亚型、肿瘤最大径(Dmax)、空气支气管征、血管集束征和分叶征是预测周围型肺癌Ki-67表达水平的独立危险因素。在静脉期中,单因素分析结果显示:Ki-67表达水平与吸烟状况、肿瘤临床分期、组织学亚型、肿瘤最大径(Dmax)、液化坏死、分叶征、空洞均有统计学意义(p<0.05)。多因素logistic回归分析表明:性别、肿瘤临床分期、组织学亚型、肿瘤最大径(Dmax)、液化坏死、分叶征、毛刺征是预测周围型肺癌Ki-67表达水平的独立危险因素。由相关组学特征组成的组学标签在训练队列(动脉期AUC,0.76;95%CI,0.70-0.82;静脉期AUC,0.76;95%CI,0.69-0.82)和验证队列(动脉期AUC,0.76;95%CI,0.67-0.86;静脉期AUC,0.76;95%CI,0.67-0.85)中有良好的预测效果。在训练队列中,动脉期影像组学诺模图由组织学亚型、肿瘤最大径(Dmax)、分叶征、血管集束征、空气支气管征、影像组学标签组成;静脉期影像组学诺模图由性别、肿瘤临床分期、组织学亚型、肿瘤最大径(Dmax)、分叶征、毛刺征、影像组学标签组成,与其他模型相比,具有最佳的诊断效能(动脉期AUC,0.86;95%CI,0.81-0.91;静脉期AUC,0.81;95%CI,0.75-0.87),高于临床模型(动脉期AUC,0.84;95%CI,0.79-0.89;静脉期AUC,0.77;95%CI,0.71-0.83)。在验证队列中,影像组学诺模图(动脉期AUC,0.79;95%CI,0.69-0.89;静脉期AUC,0.81;95%CI,0.72-0.90)预测性能亦优于临床模型(动脉期AUC,0.78;95%CI,0.68-0.88;静脉期AUC,0.79;95%CI,0.69-0.90)。基于影像组学诺模图的列线图在训练队列和验证队列中均有良好的校正效能。分析风险率预测值和观测概率之间无显著差异,没有偏离完美拟合。结论:基于CT增强图像的影像组学可以提供预测周围型肺癌Ki-67表达水平的一种方法。影像组学模型和临床病理模型的结合(影像组学诺模图)可以提高预测模型的预测性能,动脉期影像组学诺模图较静脉期具有最佳预测效能,这可能有助于为理解肺癌细胞的分子信息提供一种新的无创性的途径。