比较基于眼底阅片的人工智能(AI)系统与医生阅片在糖尿病视网膜病变(DR)筛查中的诊断效率和准确性,评价AI系统的临床应用价值。
方法采用诊断试验研究方法,取2017年3月至2018年11月肇庆市高要区人民医院眼科就诊患者彩色眼底照片13 683张作为图像库,通过迁移学习+NASNet架构算法,对2~3位眼科高级职称医生精确标注的4 465张彩色眼底照片(正常彩色眼底照片2 510张,DR彩色眼底照片1 955张)学习,建立针对DR的AI系统(ZOC-DR-V1)。1 000张确诊的彩色眼底照片(正常彩色眼底照片300张,不同程度DR彩色眼底照片700张),分别交由AI系统组和医生组(包含眼科医生组和内分泌科医生组,均包含初级、中级和高级职称),分别进行阅片,记录AI系统和医生组的单张阅片时间和总耗时,比较AI系统与不同级别医生阅片准确率和效率的差异。将1 000张图片以第500张为界分成前段和后段2个阅片阶段,分别统计医生组和AI系统组的分段诊断符合率和分段平均阅片时间。
结果眼科AI系统(ZOC-DR-V1)完成训练后测试集的诊断符合率为94.7%,受试者工作特征曲线(ROC)曲线下面积(AUC)为0.994。在人机对抗中,内分泌组初、中、高级职称医生诊断符合率分别为94.0%、91.4%和93.4%,眼科组初、中、高级职称医生诊断符合率分别为92.7%、94.4%和95.6%,AI系统诊断符合率为95.2%。AI系统与眼科高级医生阅片诊断符合率比较,差异无统计学意义(χ2=0.182,P=0.749)。内分泌科组初、中、高级职称医生单张平均阅片时间分别为(4.63±1.87)、(3.74±3.47)和(5.71±3.47)s,总耗时分别为1.29、1.04和1.58 h;眼科医生组初级、中级、高级职称医生单张阅片时间分别为(7.25±6.58)s、(5.18±5.01)和(5.18±3.47)s,总耗时分别为2.02、1.44和1.44 h;AI系统单张平均阅片时间和总耗时分别为(1.62±0.67)s和0.45 h。AI系统单张平均阅片时间明显少于各医生组,差异均有统计学意义(均P<0.01)。内分泌科初级职称、眼科初级职称和眼科中级职称医生前段与后段阅片区间诊断符合率比较,差异均有统计学意义(χ2=11.986、6.517、10.896,均P<0.05);内分泌科中级职称和高级职称医生、眼科初级职称医生后段阅片区间的平均阅片时间较前段明显缩短,差异均有统计学意义(t=4.175、8.189、5.160,均P<0.01);AI系统分段阅片诊断符合率及平均阅片时间均保持稳定,差异均无统计学意义(χ2=3.151,P=0.103;t=0.038,P=0.970)。
结论基于眼底阅片的眼科AI系统诊断符合率可达眼科专业高级职称医生水平,且平均阅片时间短,阅片质量稳定,可为大规模DR人群筛查提供新的方法与平台。