论文部分内容阅读
目的:
通过与不同级别超声医师对比,探讨基于深度学习的人工智能软件对于鉴别甲状腺结节良恶性的价值,并分析人工智能软件与不同级别超声医师鉴别甲状腺结节良恶性的影响因素。
方法:
1.纳入本研究共计426例患者(503例甲状腺良恶性结节),人工智能软件(AI组)与不同级别超声医师(低年资社区医师和高年资医师)在不知病理及患者临床资料的情况下对所有甲状腺结节进行良恶性鉴别。以病理为金标准,结合AI组与社区医师组的诊断结果,通过SPSS软件构建并联试验ROC曲线得出的联合预测因子作为AI辅助社区医师组的诊断结果。分析对比各组诊断的敏感性、特异性、准确性、阳性预测值、阴性预测值。
2.2名高年资超声医师(工作经验>10年,即高年资医师组)和2名社区超声医师(工作经验<3年,即社区医师组)应用常规超声指标评估结节的声像图特征并进行TI-RADS分类,意见不同时经协商达成一致,最后做出鉴别诊断,以作为社区医师和高年资医师两个等级的诊断水平。以病理为金标准,结合高年资医师组的诊断结果,通过单因素及多因素Logistics回归分析得出对甲状腺良恶性结节鉴别有意义的超声征象和甲状腺恶性结节的预测危险因子,同时分析影响人工智能软件与不同级别超声医师鉴别甲状腺结节良恶性的因素。
3.结合高年资医师组的诊断结果,分析“纵横比>1”与“微钙化”征象对本研究最大直径d≤1cm结节的诊断价值,并计算其诊断的敏感性、特异性、阳性预测值及阴性预测值。
结果:
1.排除34例由FNA穿刺得出的病理结果无法诊断或无法明确良恶性的结节,本研究最终纳入的结节有469例,其中良性结节共有325例,占比69.3%。经FNA穿刺考虑为良性结节有91例;经手术组织切片证实的良性结节有234例,包括91例结节性甲状腺肿,63例结节性甲状腺肿伴囊性变,29例结节性甲状腺肿伴腺瘤样增生,21例结节甲状腺肿伴钙化,7例桥本氏甲状腺炎结节,23例滤泡性腺瘤和嗜酸性细胞腺瘤。恶性结节共有144例,占比30.7%。经FNA穿刺考虑为可疑恶性(TBSV类)有18例,经FNA穿刺考虑为恶性(TBSVI类)有5例;经手术组织切片证实的恶性结节有121例,包括116例甲状腺乳头状癌(PTC),其中有64例为甲状腺微小乳头状癌,5例甲状腺滤泡癌。
2.469例甲状腺良恶性结节的一般资料比较:良恶性组结节的患者年龄、男女比例以及结节发生的位置均无统计学意义(P>0.05)。
3.AI组、高年资医师组、社区医师组以及AI辅助社区医师组对甲状腺结节的整体诊断准确率分别为84.2%、86.4%、77.6%、80.4%,在对结节的良恶性鉴别诊断方面,AI组、高年资医师组、社区医师组以及AI辅助社区医师组的敏感性和特异性分别为(74.3%、88.6%)vs(81.9%、88.3%)vs(63.8%、83.7%)vs(86.8%、77.5%)。
4.以病理为金标准,对AI组、高年资医师组、社区医师组以及AI辅助社区医师组的诊断结果进行ROC曲线成对对比,AI组的AUC为0.816,95%的置信区间为0.778-0.850,高年资医师组的AUC为0.851,95%的置信区间为0.816-0.882,社区医师组的AUC为0.738,95%的置信区间为0.696-0.777,AI辅助社区医师组的AUC为0.867,95%的置信区间为0.833-0.897。其中高年资医师组vsAI组以及高年资医师组vsAI辅助社区医师组,差异均无统计学意义(P>0.05)。社区医师组vsAI组、社区医师组vs高年资医师组以及社区医师组vsAI辅助社区医师组,差异均有统计学意义(P<0.05)。
5.对甲状腺良恶性结节鉴别有意义的超声征象中,经分析可知,结节大小、形态、纵横比、边界、边缘、声晕、回声类型、内部组成、局部强回声、后方回声以及腺外浸润这11个超声征象在单因素分析中显示有统计学意义。然后将上述超声征象进行二项多因素Logistic回归分析后显示:纵横比>1(oddsratio[OR]:1.853,p=0.037),边缘不规整(oddsratio[OR]:2.667,p<0.001),低回声(oddsratio[OR]:3.828,p<0.001),完全实性(oddsratio[OR]:4.095,p=0.014),微钙化(oddsratio[OR]:3.924,p<0.001),后方衰减(oddsratio[OR]:2.306,p=0.005),均可作为甲状腺恶性结节的独立预测因子。
6.154例最大直径d≤1cm的结节中,其中77例良性结节有26例图像出现“纵横比>1”,占33.7%,15例图像出现“微钙化”,占19.5%。77例恶性结节中,38例图像出现“纵横比>1”,占49.4%,25例图像出现“微钙化”,占32.5%。“纵横比>1”占总数154例最大直径d≤1cm的甲状腺结节的41.6%,恶性结节图像显示“纵横比>1”高于良性结节,?2=4.143,P=0.042。诊断的敏感性,特异性、阳性预测值及阴性预测值分别为49.4%、66.2%、59.4%、56.7%。“微钙化”占总数154例最大直径d≤1cm的甲状腺结节的26.0%,“微钙化”对鉴别最大直径d≤1cm结节的良恶性结果没有统计学差异,?2=3.564,P=0.059。
7.在分析人工智能软件与不同级别超声医师鉴别甲状腺良恶性结节的影响因素中,具体到结节大小方面:(1)AI组:最大直径d≤1cm的结节病例者,诊断正确有118例,占比76.6%(118/154),诊断错误有36例,占比23.4%(36/154)。最大直径d>1cm的结节病例者,诊断正确有277例,占比87.9%(277/315),诊断错误有38例,占比12.1%(38/315)。比较AI组对两者(最大直径d≤1cm的结节病例者vs最大直径d>1cm的结节病例者)的诊断结果,P=0.002,差异有统计学意义(P<0.05)。(2)高年资医师组:最大直径d≤1cm的结节病例者,诊断正确有113例,占比73.4%(113/154),诊断错误有41例,占比26.6%(41/154);最大直径d>1cm的结节病例者,诊断正确有292例,占比92.7%(292/315),诊断错误有23例,占比7.3%(23/315)。比较高年资医师组对两者(最大直径d≤1cm的结节病例者vs最大直径d>1cm的结节病例者)的诊断结果,P<0.001,差异有统计学意义(P<0.001);(3)社区医师组:最大直径d≤1cm的结节病例者,诊断正确有95例,占比61.7%(95/154),诊断错误有59例,占比38.3%(59/154);最大直径d>1cm的结节病例者,诊断正确有269例,占比85.4%(269/315),诊断错误46例,占比14.6%(46/315)。比较社区医师组对两者(最大直径d≤1cm的结节病例者vs最大直径d>1cm的结节病例者)的诊断结果,P<0.001,差异有统计学意义(P<0.001)。
8.对于最大直径d≤1cm的结节病例者诊断错误率比较:对AI组、高年资医师组、社区医师组的鉴别诊断结果进行比较,P=0.010,说明三组对最大直径d≤1cm结节的良恶性鉴别诊断结果不完全相同。再对三组进行两两比较,检验水准?=0.017(0.05/3),结果显示:AI组与高年资医师组:P=0.511,两组比较差异无统计学意义(P>0.017);高年资医师组与社区医师组:P=0.028,两组比较差异有统计学意义(P>0.017);AI组与社区医师组:P=0.005,两组比较差异有统计学意义(P<0.017)。
结论:
(1)AI对鉴别甲状腺结节良恶性具有较高的价值,并且AI辅助社区医师的诊断效能可达到高年资医师水平。
(2)对甲状腺结节良恶性鉴别有意义的超声征象中纵横比>1、边缘不规整、低回声、完全实性、微钙化、后方回声衰减,均可做为甲状腺恶性结节的独立预测因子。
(3)微小结节(即最大直径d≤1cm的结节)是人工智能软件与不同级别超声医师鉴别甲状腺良恶性结节的影响因素,即对于微小结节所有组别均易误判,社区医师组错误率最高。
(4)“纵横比>1”对鉴别微小结节良恶性的准确性不高;“微钙化”对鉴别微小结节的良恶性结果没有统计学差异。
(5)通过以上,我们可以提示:基于深度学习的人工智能软件应增加最大直径d≤1cm结节的训练样本,应更有助于提高其对此类结节良恶性的鉴别能力。
通过与不同级别超声医师对比,探讨基于深度学习的人工智能软件对于鉴别甲状腺结节良恶性的价值,并分析人工智能软件与不同级别超声医师鉴别甲状腺结节良恶性的影响因素。
方法:
1.纳入本研究共计426例患者(503例甲状腺良恶性结节),人工智能软件(AI组)与不同级别超声医师(低年资社区医师和高年资医师)在不知病理及患者临床资料的情况下对所有甲状腺结节进行良恶性鉴别。以病理为金标准,结合AI组与社区医师组的诊断结果,通过SPSS软件构建并联试验ROC曲线得出的联合预测因子作为AI辅助社区医师组的诊断结果。分析对比各组诊断的敏感性、特异性、准确性、阳性预测值、阴性预测值。
2.2名高年资超声医师(工作经验>10年,即高年资医师组)和2名社区超声医师(工作经验<3年,即社区医师组)应用常规超声指标评估结节的声像图特征并进行TI-RADS分类,意见不同时经协商达成一致,最后做出鉴别诊断,以作为社区医师和高年资医师两个等级的诊断水平。以病理为金标准,结合高年资医师组的诊断结果,通过单因素及多因素Logistics回归分析得出对甲状腺良恶性结节鉴别有意义的超声征象和甲状腺恶性结节的预测危险因子,同时分析影响人工智能软件与不同级别超声医师鉴别甲状腺结节良恶性的因素。
3.结合高年资医师组的诊断结果,分析“纵横比>1”与“微钙化”征象对本研究最大直径d≤1cm结节的诊断价值,并计算其诊断的敏感性、特异性、阳性预测值及阴性预测值。
结果:
1.排除34例由FNA穿刺得出的病理结果无法诊断或无法明确良恶性的结节,本研究最终纳入的结节有469例,其中良性结节共有325例,占比69.3%。经FNA穿刺考虑为良性结节有91例;经手术组织切片证实的良性结节有234例,包括91例结节性甲状腺肿,63例结节性甲状腺肿伴囊性变,29例结节性甲状腺肿伴腺瘤样增生,21例结节甲状腺肿伴钙化,7例桥本氏甲状腺炎结节,23例滤泡性腺瘤和嗜酸性细胞腺瘤。恶性结节共有144例,占比30.7%。经FNA穿刺考虑为可疑恶性(TBSV类)有18例,经FNA穿刺考虑为恶性(TBSVI类)有5例;经手术组织切片证实的恶性结节有121例,包括116例甲状腺乳头状癌(PTC),其中有64例为甲状腺微小乳头状癌,5例甲状腺滤泡癌。
2.469例甲状腺良恶性结节的一般资料比较:良恶性组结节的患者年龄、男女比例以及结节发生的位置均无统计学意义(P>0.05)。
3.AI组、高年资医师组、社区医师组以及AI辅助社区医师组对甲状腺结节的整体诊断准确率分别为84.2%、86.4%、77.6%、80.4%,在对结节的良恶性鉴别诊断方面,AI组、高年资医师组、社区医师组以及AI辅助社区医师组的敏感性和特异性分别为(74.3%、88.6%)vs(81.9%、88.3%)vs(63.8%、83.7%)vs(86.8%、77.5%)。
4.以病理为金标准,对AI组、高年资医师组、社区医师组以及AI辅助社区医师组的诊断结果进行ROC曲线成对对比,AI组的AUC为0.816,95%的置信区间为0.778-0.850,高年资医师组的AUC为0.851,95%的置信区间为0.816-0.882,社区医师组的AUC为0.738,95%的置信区间为0.696-0.777,AI辅助社区医师组的AUC为0.867,95%的置信区间为0.833-0.897。其中高年资医师组vsAI组以及高年资医师组vsAI辅助社区医师组,差异均无统计学意义(P>0.05)。社区医师组vsAI组、社区医师组vs高年资医师组以及社区医师组vsAI辅助社区医师组,差异均有统计学意义(P<0.05)。
5.对甲状腺良恶性结节鉴别有意义的超声征象中,经分析可知,结节大小、形态、纵横比、边界、边缘、声晕、回声类型、内部组成、局部强回声、后方回声以及腺外浸润这11个超声征象在单因素分析中显示有统计学意义。然后将上述超声征象进行二项多因素Logistic回归分析后显示:纵横比>1(oddsratio[OR]:1.853,p=0.037),边缘不规整(oddsratio[OR]:2.667,p<0.001),低回声(oddsratio[OR]:3.828,p<0.001),完全实性(oddsratio[OR]:4.095,p=0.014),微钙化(oddsratio[OR]:3.924,p<0.001),后方衰减(oddsratio[OR]:2.306,p=0.005),均可作为甲状腺恶性结节的独立预测因子。
6.154例最大直径d≤1cm的结节中,其中77例良性结节有26例图像出现“纵横比>1”,占33.7%,15例图像出现“微钙化”,占19.5%。77例恶性结节中,38例图像出现“纵横比>1”,占49.4%,25例图像出现“微钙化”,占32.5%。“纵横比>1”占总数154例最大直径d≤1cm的甲状腺结节的41.6%,恶性结节图像显示“纵横比>1”高于良性结节,?2=4.143,P=0.042。诊断的敏感性,特异性、阳性预测值及阴性预测值分别为49.4%、66.2%、59.4%、56.7%。“微钙化”占总数154例最大直径d≤1cm的甲状腺结节的26.0%,“微钙化”对鉴别最大直径d≤1cm结节的良恶性结果没有统计学差异,?2=3.564,P=0.059。
7.在分析人工智能软件与不同级别超声医师鉴别甲状腺良恶性结节的影响因素中,具体到结节大小方面:(1)AI组:最大直径d≤1cm的结节病例者,诊断正确有118例,占比76.6%(118/154),诊断错误有36例,占比23.4%(36/154)。最大直径d>1cm的结节病例者,诊断正确有277例,占比87.9%(277/315),诊断错误有38例,占比12.1%(38/315)。比较AI组对两者(最大直径d≤1cm的结节病例者vs最大直径d>1cm的结节病例者)的诊断结果,P=0.002,差异有统计学意义(P<0.05)。(2)高年资医师组:最大直径d≤1cm的结节病例者,诊断正确有113例,占比73.4%(113/154),诊断错误有41例,占比26.6%(41/154);最大直径d>1cm的结节病例者,诊断正确有292例,占比92.7%(292/315),诊断错误有23例,占比7.3%(23/315)。比较高年资医师组对两者(最大直径d≤1cm的结节病例者vs最大直径d>1cm的结节病例者)的诊断结果,P<0.001,差异有统计学意义(P<0.001);(3)社区医师组:最大直径d≤1cm的结节病例者,诊断正确有95例,占比61.7%(95/154),诊断错误有59例,占比38.3%(59/154);最大直径d>1cm的结节病例者,诊断正确有269例,占比85.4%(269/315),诊断错误46例,占比14.6%(46/315)。比较社区医师组对两者(最大直径d≤1cm的结节病例者vs最大直径d>1cm的结节病例者)的诊断结果,P<0.001,差异有统计学意义(P<0.001)。
8.对于最大直径d≤1cm的结节病例者诊断错误率比较:对AI组、高年资医师组、社区医师组的鉴别诊断结果进行比较,P=0.010,说明三组对最大直径d≤1cm结节的良恶性鉴别诊断结果不完全相同。再对三组进行两两比较,检验水准?=0.017(0.05/3),结果显示:AI组与高年资医师组:P=0.511,两组比较差异无统计学意义(P>0.017);高年资医师组与社区医师组:P=0.028,两组比较差异有统计学意义(P>0.017);AI组与社区医师组:P=0.005,两组比较差异有统计学意义(P<0.017)。
结论:
(1)AI对鉴别甲状腺结节良恶性具有较高的价值,并且AI辅助社区医师的诊断效能可达到高年资医师水平。
(2)对甲状腺结节良恶性鉴别有意义的超声征象中纵横比>1、边缘不规整、低回声、完全实性、微钙化、后方回声衰减,均可做为甲状腺恶性结节的独立预测因子。
(3)微小结节(即最大直径d≤1cm的结节)是人工智能软件与不同级别超声医师鉴别甲状腺良恶性结节的影响因素,即对于微小结节所有组别均易误判,社区医师组错误率最高。
(4)“纵横比>1”对鉴别微小结节良恶性的准确性不高;“微钙化”对鉴别微小结节的良恶性结果没有统计学差异。
(5)通过以上,我们可以提示:基于深度学习的人工智能软件应增加最大直径d≤1cm结节的训练样本,应更有助于提高其对此类结节良恶性的鉴别能力。