论文部分内容阅读
研究背景肝细胞癌(Hepatocellular carcinoma,HCC)是全球第三位恶性肿瘤相关致死病因。国际癌症机构统计2020年约有83,0180人死于肝癌,预计2025年死亡人数将突破100万。当前国际指南均推荐影像检查如计算机断层扫描(Computed Tomography,CT)和磁共振成像(Magnetic Resonance Imaging,MRI)用于高危人群的监测、诊断、分期和治疗。由于肝肿瘤病变类型繁多,特征定义不明确,同病异影,异病同影等问题对基于传统影像的HCC诊疗提出巨大挑战。为规范慢性肝病患者肝内异常发现的解释和报告,降低特征解读的差异,美国放射学会(American College of Radiology,ACR)发布了肝脏成像报告和数据系统(Liver Imaging Reporting and Data System,LI-RADS),但LI-RADS特征类别繁多,诊断逻辑复杂,定性特征无法量化等问题导致目前在中国人群仍处于起步和探索阶段。近年来,深度学习方法,尤其是卷积神经网络(convolutional neural network,CNN),凭借其强大的特征表征能力在医学图像分析任务中展现出优越的性能。目前已有文献报道CNN在肺癌、乳腺癌、胶质瘤等肿瘤中的研究,但在HCC中的应用尚少有研究。因此,本文基于多期相CT和多序列MRI影像,深入探究了卷积神经网络对肝脏局灶性病变(Focal Liver Lesions,FLLs)自动检测、HCC诊断及微血管侵犯(microvascular invasion,MVI)的预测价值。方法实验一:该部分探究基于增强CT影像的CNN模型自动检测FLLs的效能。研究共纳入上腹部增强CT检查的2003名患者共8597个FLLs。基于567例患者的3892个FLLs构建了两个维度的检测模型(2.5D和3D CNN),并在1436例患者的4723个FLLs中进行验证。首先对比了不同CT期相(动脉期、门脉期和联合期相)对检测效能的影响,并进一步比较两个维度模型对于不同病变类型及不同病变大小的检测效能。在病变大小检测效能分析实验中,首先以20mm为界将数据划分为两组(<20和≥20mm)。再分别以10mm、20mm和50mm为分界将数据划分为4个亚组(<10,10~<20mm,20~<50mm,≥50mm)。采用Mc Nemar’s检验比较两个维度的CNN模型对于FLLs检测的敏感性。实验二:我们进一步探究了基于多序列MRI的多任务CNN模型诊断HCC的效能。研究共纳入406例患者共468个病灶(285个HCC,47个非HCC恶性肿瘤和136个良性病变)。本研究包含两个分类任务,分别为二分类(HCC,非HCC)和三分类(HCC,非HCC恶性病变,良性病变)。CNN模型的分类结果不同年资阅片者(3名高年资和3名低年资阅片者)基于2018 MRI LI-RADS的分级结果比较分类诊断的准确性、敏感性和特异性。对于二分类任务,采用Mc Nemar’s检验比较不同LI-RADS标准以及CNN模型与阅片者间诊断敏感性和特异性的差异。对于三分类任务,分别计算CNN模型与阅片者的诊断准确性。实验三:对于HCC确诊患者,我们基于多序列MRI进一步探究了两阶段CNN模型预测MVI的价值。研究纳入2个中心共445例手术病理证为HCC的患者。中心1划分为训练集(n=260例)和内部验证集(n=84例),中心2为外部验证集(n=81例)。基于患者的临床和语义特征构建临床模型;基于两阶段卷积神经网络构建4个单期相模型(平扫期、动脉期、门脉期、延迟期)并筛选效能较优的期相构建融合模型;联合临床特征和融合模型最终构建组合模型。利用Delong检验比较临床模型、融合模型以及组合模型对于MVI的预测效能。结果结果一:基于多期相、多维度CNN模型自动检测FLLs的结果显示,CT门脉期优于动脉期,联合两个期相可进一步提高FLLs的检出率。不考虑直径大小时,3D CNN模型的检测敏感性显著高于2.5D CNN模型:良性病变(0.896 vs 0.807,P<0.001),恶性病变(0.940 vs 0.918,P=0.013),所有病变(0.902 vs 0.832,P<0.001)。当直径<20mm时,3D CNN模型的检出率仍显著高于2.5D CNN模型:良性病变(0.871 vs 0.760,P<0.001),恶性病变(0.846 vs 0.747,P<0.001),所有病变(0.868vs 0.759,P<0.001)。当直径≥20mm时,3D和2.5D CNN模型检测效能相当。结果二:基于多任务CNN模型与阅片者基于LI-RADS标准的分类显示,CNN模型二分类的诊断准确性高于六名阅片者(0.904 vs 0.809~0.904),敏感性显著高于三名低年资阅片者(0.982 vs 0.821~0.893,P<0.001),特异性与六名阅片者无明显差异(0.789 vs 0.789~0.895,P>0.05)。CNN模型三分类的诊断准确率高于低年资阅片者(0.894 vs 0.798~0.840),接近或达到高年资阅片者诊断水平(0.894 vs0.840~0.904)。两个分类任务均证实,当病变直径小于20mm时,六名阅片者诊断准确性和敏感性显著降低,而CNN模型的诊断性能几乎不受肿瘤大小的影响。结果三:基于两阶段CNN模型预测MVI的研究共构建了7个预测模型,包括1个临床模型、4个单期相模型、1个融合模型和1个组合模型。临床模型中AFP≥20 ng/ml、强化包膜和晕状强化是MVI独立预测因子,训练集、内部及外部验证集的AUC分别为0.678(0.609,0.746)、0.698(0.574,0.822)和0.691(0.564,0.817)。基于动脉和门脉期MRI序列的融合模型预测MVI的效能显著高于临床模型,融合模型在三个数据集中的AUC分别为0.952(0.928,0.976)、0.833(0.726,0.941)和0.805(0.683,0.927),且与组合模型的预测价值相当(P>0.05)。结论:本文表明基于不同构架及模态影像构建的CNN模型在FLLs检测、HCC诊断和MVI预测中均表现出良好的效能。(1)基于多期相CT影像构建的两个维度的CNN模型可以实现不同病变类型和不同病变大小FLLs的自动检测。3D CNN模型的检测效能高于2.5D CNN模型,对于20mm以下的小病变尤为显著。(2)基于多序列MRI影像构建的肝肿瘤二分类和三分类CNN模型高于低年阅片者,接近或达到高年资阅片者的诊断水平。因此CNN模型有助于提高医生(尤其是低年资医生)的诊断信心,降低小HCC的漏诊,促进HCC的早期诊断和治疗。(3)基于动脉和门脉期MRI影像的融合模型预测MVI效能显著高于临床模型,且与组合模型相当。因此融合模型有望为MVI术前预测提供无创、精准的定位和参考价值。