论文部分内容阅读
目的:本研究使用低剂量多层螺旋CT检测肺结节的结果作为金标准,社区筛查的胸部DR成像作为研究对象,探讨(1)不同阈值条件下AI对DR成像肺结节的诊断效能;(2)AI对DR成像肺结节的诊断效能与基层医院医师诊断效能比较。方法:回顾性分析2018年4月至2018年7月于社区医院行DR成像检查,并于2周内在天津医科大学肿瘤医院行LDCT检查患者199例。(1)两位从事胸部影像诊断工作的副主任医师标记LDCT作为金标准,如果标记有疑问,通过协商确定。(2)标记完成后,再由三位从事胸部影像诊断工作的主治医师通过多平面重建,在冠状位像上找到轴位像上标记的结节,再在DR正位像对应位置找到并标记结节,如果标记有疑问,通过协商确定。(3)人工智能标记使用推想公司的胸部X线计算机辅助诊断软件R4.3版本,只使用胸部DR正位像,将胸部DR正位像自动批量输入,系统将自动进行肺结节的识别与标记,通过可视化操作界面可以直接读取标记结果。(4)基层医院基于胸部DR成像检出的结节,由基层医院医师填写结节登记表,再由上述三位从事胸部影像诊断工作的主治医师根据登记表进行标记。结果:(1)LDCT共标记≥6mm结节共计113个。根据所选择的阈值的不同,人工智能所识别出的结节情况也有较大差别。人工智能的漏诊率随阈值的增大逐渐增大,人工智能假阳性率随阈值的增大不断减小。影响漏诊率和假阳性主要有结节与骨骼重叠、结节位于肺门区、结节与心影重叠以及其他因素。只有因其他因素导致的漏诊(P=0.049/0.034<0.05)具有统计学意义。说明该人工智能平台不同阈值之间的漏诊差异主要是由其他因素导致的,与DR成像本身的重叠影像无明显相关性。因其他因素导致的假阳性(P=0.017/1.000)在低阈值时差异有统计学意义,在高阈值条件下差异无统计学意义。(2)基层医师诊断了38个真结节(灵敏度为33.6%)。当人工智能的灵敏度为33.6%时,所对应的阈值为0.585,诊断的假阳性结节为9个;当人工智能的假阳性率与基层医师一致时,所对应的阈值为0.525,此时人工智能软件诊断的真结节为44个(灵敏度为38.9%)。基层医师和人工智能软件(阈值为0.585、0.525)在导致漏诊的影响因素方面没有明显差异,共同的最重要的影响因素都是结节是否与骨骼重叠。因骨骼相关因素(P=0.010/0.008<0.05)和其他因素(P=0.020/0.001<0.05)导致的假阳性差异均具有统计学意义。说明当结节与骨骼重叠时,对比基层医师和人工智能软件,基层医师更容易在与骨骼重叠区诊断假阳性结节。相反,人工智能软件则更容易因为其他原因而诊断假阳性结节。结论:(1)不同阈值条件下,人工智能软件对胸部DR成像中检出结节的灵敏度、假阳性率难以达到理想的平衡。无论阈值高低,与骨骼相关因素都是影响漏诊率和假阳性率的重要因素,在低阈值条件下尤其明显,同时在高阈值条件其他因素成为影响漏诊率和假阳性率最主要因素。(2)基层医师与人工智能软件(阈值为0.585、0.525)间对胸部DR成像中结节的检出效能无明显差异,且均受结节与骨骼重叠因素影响较大。