论文部分内容阅读
乳腺癌是一种严重威胁中年女性生命与健康的恶性肿瘤。近年来乳腺癌在中国的发病率呈上升趋势。早发现、早诊断、早治疗能有效提高乳腺癌治愈率和乳腺病人的存活率。钼靶X线摄影成为临床上乳腺癌检测的最常用的手段。研究表明计算机辅助诊断(Computer-AidedDiagnosis,CAD)技术可以有效辅助医生帮助提高诊断效率,目前CAD中对肿块检测还存在许多困难。近年来,许多钼靶CAD系统引入了基于内容的图像检索技术(Content-basedImage Retrieval,CBIR)。相关研究表明,CBIR技术可以辅助医师提高肿块检测精度。
临床诊断中,肿块病灶在影像中往往表现为多语义问题,一个病灶往往既含有病变部分又含有正常乳腺组织。CBIR的基本技术框架是“按例检索(query-by-example,QBE)",仅仅基于特征匹配的QBE框架不能很好地解决图像检索中的“语义沟”问题,往往需要融合(有监督)机器学习方法以提高检索精度。由于医师提交的疑似病灶图像存在不确定性使得用传统的有监督学习方法来解决肿块病灶检索问题并非是一个最佳选择。多示例学习(Multi-instance learning,MIL)方法是用于解决上述不确定性问题的一种新的机器学习框架。与有监督学习不同,MIL框架中训练集是由包含概念标记的包组成,而包中示例是没有概念标记的。一个包被标记为正包要求包中至少有一个示例是正例,否则该包被标记为负包。学习算法从由有标记的包组成的训练集中学习出概念来预测新包的标记。MIL应用于CBIR时将每一幅图像视为一个包,分割后的每一个区域视为包中的示例。然后利用学习算法从训练集学习用户感兴趣的概念,并检索包含类似概念的相关图像。
本文研究目的是将MIL方法应用于钼靶肿块病灶检索中。在乳腺钼靶检索系统中,查询病灶通常是不确定的且难以被描述,因为其既包含病变部分又含有正常乳腺组织。如果查询病灶被视为图像包,那么就可以利用MIL技术解决存在的不确定性问题。本文提出了三种不同的包生成器算法并用MIL算法进行概念学习,学习得到的概念用于检索。本文通过大量实验比较了不同的MIL算法下各包的检索性能。本文研究主要从以下三个部分进行。
第一部分,提出三种在MIL框架下用于乳腺钼靶肿块病灶检索的包生成器方法,分别是基于JSEG分割图像的J-Bag,基于视觉注意计算模型的A-Bag以及基于改进的k-means聚类分割图像的K-Bag。最后病灶图像被转换成一个包含4个示例的包,其中每个示例包含4维特征向量。第二部分,建立本文实验所需的数据库,一个是DDSM数据库,另一个是病灶图像采集自浙江省肿瘤医院的数据库。第三部分,从训练数据集中随机挑选一定数量的正包和负包组成训练集,用给定的包生成器对病灶图像进行处理并计算各包,然后分别采用MIL算法(DD、EM-DD、BP-MIP)进行学习。学习所得的概念用于对测试数据集中的图像进行检索。实验中比较了MIL框架中不同包生成器和学习算法的性能,同时将本文提出的三种包生成器算法与SBN算法进行比较。从实验结果来看,MIL方法可以用于乳腺钼靶肿块病灶图像检索;本文提出的A-Bag和K-Bag包检索性能要好于经典的SBN包。使用的MIL算法中EM-DD算法检索性能最佳。
最后总结了本论文的工作,并展望了未来研究需要改进的几个方面。