论文部分内容阅读
乳腺癌目前已跃居女性恶性肿瘤的首位,且发病年龄呈年轻化的趋势,因此乳腺癌的早期发现、早期诊断及治疗至关重要。乳腺X线摄影检查是乳腺癌筛查最主要的检查手段,乳腺X线密度是用于描述乳腺X线摄影中女性乳腺纤维腺体组织比例的量度,可以定性或定量测量乳腺密度。致密型乳腺为乳腺癌的独立危险因素之一,致密型乳腺的女性患乳腺癌的可能性要比脂肪型乳腺高4-6倍,同时也是乳腺X线摄影早期筛查乳腺癌敏感性及特异性偏倚的主要因素之一。2009年美国康涅狄格州通过的致密乳腺告知法案要求致密型乳腺女性需了解致密乳腺存在的风险因素及辅助筛查手段对致密乳腺的局限,患者可自愿选择是否进行补充筛查。目前美国已有31个州通过了该项立法。因为补充筛查和风险管理的建议可能因乳腺X线密度而异,所以在临床中极其需要对乳腺密度进行准确且一致的评估。乳腺密度有多种分类方法,目前使用最普遍的是由美国放射学会定义的BI-RADS 分类。该方法是主观的,具有一定的观察者内及观察者间差异。然而,最新版(第5版)BI-RADS分类的修改调整更进一步增加了临床评估的可变性。本文收集一定样本量的筛查女性的乳腺X线图像,参照国际最新规范BI-RADS第5版分类标准及临床实践,回顾性分析观察者间乳腺X线密度分类的一致性及原始报告的可靠性,分析临床乳腺X线密度分类评估的准确性及可重复性,为后续初步评价基于深度学习的自动乳腺X线密度分类模型的分类性能提供参考依据。近年来,利用计算机辅助进行医学图像的分类技术已经被广泛应用。随着深度学习技术的兴起和发展,基于深度学习的医学图像处理技术的研究也成为了计算机辅助医学影像领域的热门问题。在乳腺影像领域,目前已有不少利用深度学习技术检测及分类乳腺良恶性肿块和钙化的研究,但在乳腺密度分类方面却鲜有研究。本研究尝试将深度学习应用于乳腺X线密度分类当中,利用深度学习的模式自动获取基于BI-RADS第5版的乳腺密度类别,并初步评价深度学习模型对乳腺密度的分类性能,以期提供一个有前途的计算机化工具包,以辅助影像医师准确判读出致密型乳腺,指导进一步的临床筛查工作。论文正文分为以下4个部分:前言,主要阐述研究背景、意义,概述致密型乳腺筛查方法的现状及局限,总结乳腺X线密度评估方法的现状及特点,并引入深度学习与卷积神经网络这一概念,阐述其在相关领域的研究及成果。基于乳腺密度标准化的需求,结合深度卷积网络的特点,提出构建自动乳腺X线密度分类模型这一设想。目的在于初步评价自动乳腺密度分类模型的研究背景及应用前景,为后续研究提供理论依据。第一部分为基于第五版BI-RADS评价乳腺密度的一致性研究。收集2016年1月~5月于我院行乳腺X线筛查的774例女性的图像,参照第五版BI-RADS分类标准,由3名不同年资医师单独评估乳腺X线密度分类,并以3名医师共同阅片达成的一致分类为相对金标准,采用χ2检验分析不同年龄组筛查女性乳腺X线密度差异。采用Cohen’skappa检验来评估分类的一致性,采用准确率评估分类的可靠性。774例图像中,a脂肪类乳腺13例,b散在纤维腺体类乳腺112例,c不均匀致密类乳腺526例,d极度致密类乳腺123例。<60岁与≥60岁筛查妇女间乳腺X线密度差异有统计学意义;低(R1)、中(R2)、高(R3)年资医师及原始报告分类准确率分别为81.14%(628/774)、87.86%(680/774)、90.96%(704/774)、67.70%(524/774);R1与相对金标准的一致性中等(Kappa=0.602),R2、R3与相对金标准的一致性较好(Kappa=0.766、0.817),原始报告与相对金标准的一致性中等(Kappa=0.430);R1、2、3分类的观察者间的总体一致性中等(Kappa=0.671),两两一致性从较差到中等(Kappa=0.396~0.604),以上P均<0.001。本部分结果表明:1、乳腺癌筛查妇女年龄与乳腺X线密度有关,随着年龄增长,乳腺X线密度呈减低趋势。2、不同观察者对最新的第5版BI-RADS分类的掌握和熟练程度不同,对乳腺X线密度遮蔽程度的感知不同。3、临床实践中对乳腺分类评估的可靠性有限,可通过专门训练增进诊断医师经验或开发基于第5版BI-RADS的自动乳腺密度分类工具,以更准确地判读乳腺密度类型。第二部分为基于深度学习的端到端自动乳腺X线密度分类模型的构建研究。收集2015年于我院行乳腺X线筛查摄影的女性,共960例,每例选取单侧CC位图像,由3名乳腺影像诊断医师重新阅片,以3人意见一致的分类作为每张图像的标签,经过图像预处理及数据集(训练集、验证集及测试集)划分,将预处理后的图像输入以Inception-ResNet-v2为基本网络构建的模型,使用ReLU作为激活函数,使用categorical-crossentrpy作为损失函数,使用Adam作为优化函数,并从头开始训练,最后利用测试集测试训练好的模型对未知分类数据集的预测能力,评估模型的分类性能。采用查准率、查全率与综合分类率作为评价模型对单个类别的分类效果的指标,采用宏平均及微平均作为评价模型整体分类效果的指标。200例测试集中,a、b、c、d各分类的比例为1:1:1:1,模型预测的结果a、b、c、d各分类的查准率分别为0.75,0.91,0.79,0.98;a、b、c、d各分类的查全率分别为0.96,0.58,0.98,0.82;a、b、c、d各分类的综合分类率分别为0.84,0.71,0.88,0.89。模型的宏平均查准率、查全率与综合分类率分别为0.86,0.84,0.83;模型的微平均值为0.84。本部分结果表明:1、基于深度学习的自动乳腺密度分类方法能够从相对少量的训练图像中有效地识别基本成像特征,以区分四个BI-RADS乳腺密度类别。2、模型整体分类性能较好,模型各分类中的查准率及查全率最高可达0.98。3、模型对c、d类的分类效果较好,但对a、b类的区分度欠佳。原因主要是①基于中国女性乳腺密度分布的特点,脂肪类乳腺比例相对较少,纳入的脂肪型病例不够典型;②样本数据集的限制,暂不足以使模型完全提取a类与b类不同的成像特征并将其有效区分。第三部分为端到端自动分类模型与临床评估对比分析,收集2015年于我院行乳腺X线筛查摄影的女性,共200例(数据同第三部分测试集),每例选取单侧CC位图像,由3名乳腺影像诊断医师重新阅片,以3人意见一致的分类作为每张图像的标准分类。采用Cohen’skappa检验来评估模型与临床分类的一致性。采用准确率来评估模型分类的可靠性。200例相同比例类别的图像中,基于四分类评估a、b、c、d各分类中模型与临床评估完全一致的分别有48、29、49、41;基于二分类评估非致密型、致密型各分类中,模型与临床评估完全一致的分别有94、98。与临床的标准分类相比,模型四分类的准确率为0.84,二分类的准确率为0.96,四分类kappa值为0.78,二分类kappa值为0.92。第一部分结果中,不同年资医师四分类的平均准确率为0.87,四分类kappa值为0.73;原始报告四分类的准确率为0.68,四分类kappa值为0.43。模型与临床对乳腺X线密度BI-RADS分类的评估不一致率主要集中分布在a/b评估上,而b/c、c/d及跨两个类别的不一致率均较低,分别为0.03、0.04及0.01。本部分结果表明:1、模型分类的准确率及一致性均较高,模型分类与临床医生的平均分类水平基本一致,表明模型能够在减少观察者间可变性的基础上模拟放射科医师临床实践中的乳腺密度评估行为。2、模型在乳腺密度二分类法的表现突出,有望成为乳房密度分层筛查的合适选择,适用于临床和研究领域的乳腺X线密度BI-RADS分类评估。全文结论:1、本课题总结了基于BI-RADS第5版的观察者间乳腺X线密度分类的一致性及原始报告的可靠性,分析临床乳腺X线密度分类评估的准确性及可重复性,为后续初步评价基于深度学习的自动乳腺X线密度分类模型的分类性能提供参考依据。2、本课题构建了基于深度学习的端到端自动乳腺X线密度分类模型,并初步证实了模型基于BI-RADS分类评估乳腺X线密度的可行性。3、本课题进行模型与临床乳腺密度评估的对比分析,并初步证实了模型基于BI-RADS 评估乳腺X线密度分类的临床实用性。