论文部分内容阅读
摘要:乳腺癌是导致女性癌症死亡的首要原因,严重危害广大女性的身体健康,早期的诊断和治疗是防治的关键。针对当前乳腺X线图像人工标注工作量大、数据不易获取、图像特征提取耗时且难度大等问题,现以稀疏自编码网络为基础,训练具有两个隐含层的神经网络以对图像进行有无病变分类。首先,使用自编码器以无监督方式单独训练各隐含层。然后训练最终Softmax层,并将这些层连接在一起形成堆叠网络,该网络最后以有监督方式进行训练。医生可通过系统得出的结果对患者是否患有乳腺病变进行诊断。
关键词:乳腺X线图像;稀疏自编码器;深度学习;病变检测;MATLAB
1. 前言
目前国内外学者先后提出了多种乳腺病变检测系统。Christoyiarni等人提出在肿块疑似区域上利用独立元分析方法提取特征辨别肿块与正常组织,再利用神经网络方法分类训练肿块,能达到较高检测率同时能区分肿块的良恶性[1]。尽管特征提取确实得到很大提升,但是CAD系统中的分类器在分类病变图像的准确度上仍然存在很大缺陷。近年来,深度学习在诸多领域能够同时进行特征学习和分类,深度学习技术中的无监督特征学习技术已经成功地被应用于计算机视觉领域。因其不需要依赖于先验知识,可以自适应地构建有效的特征描述,所以灵活性和普遍性较传统特征提取方法更具有优越性[2]。自编码器(Auto-encoder,AE)就是深度学习中最流行的代表性学习方法中的一种,该学习方法能实现良好的性能,并具有较少的调节参数和低的迭代次数等优点,在图像特征表达中得到广泛的运用[3]。由此设计一个基于自编码网络的乳腺病变检测系统,采用无监督自编码网络训练及有监督的微调,训练建立能够区分乳腺X线图像是否发生病变的神经网络模型,检测结果对乳腺癌诊断有很好的参考价值,对促进医学影像诊断的智能化发展具有重要的意义。
2. 基于自编码网络的乳腺病变检测系统
2.1 数据集加载
本文使用乳腺X线图像数据进行训练和测试。每个数据图像为256×256像素,共有1200张训练样本,其中包括1000张正常的乳腺X线图像和200张已发生病变的乳腺X线图像。通过for循环依次将1200张训练数据加载到MATLAB中,然后使用imresize函数把每个数据图像压缩为28×28像素,利用rgb2gray函数将真彩色图像转换成灰度图像。
训练图像的标签存储在一个2×1200的矩阵中,其中每列都有一个元素为1,指示该图像所属的类,该列中的所有其他元素为0。数据加载完成后利用for循环查看其中一些图像,查看效果。
2.2 训练自编码网络
2.2.1 训练第一个自编码器
首先在不使用标签的情况下基于训练数据训练稀疏自编码器。自编码器是一种神经网络,该网络会尝试在其输出端复制其输入。因此,其输入的大小将与其输出的大小相同。当隐含层中的神经元数量小于输入的大小时,自编码器将学习输入的压缩表示。
第一步:顯示设置随机数生成器种子。
第二步:设置自编码器的隐含层的大小。
第三步:训练自编码器。
第四步:可以使用view函数查看自编码器的图。自编码器由一个编码器和一个解码器组成。编码器将输入映射为隐含表示,解码器则尝试进行逆映射以重新构造原始输入。
2.2.2 可视化第一个自编码器的权重
自编码器的编码器部分所学习的映射可用于从数据中提取特征。编码器中的每个神经元都具有一个与之相关联的权重向量,该向量将进行相应调整以响应特定可视化特征。
自编码器的隐含层的100维输出是输入的压缩版本,它汇总了对上面可视化的特征的响应。基于从训练数据中提取的一组向量训练下一个自编码器。首先,必须使用经过训练的自编码器中的编码器生成特征。
2.2.3 训练第二个自编码器
第二个自编码器的训练与第一个类似,主要区别在于将使用从第一个自编码器生成的特征作为第二个自编码器中的训练数据并且将隐含表示的大小减小到50,以便第二个自编码器中的编码器学习输入数据的更小表示。将前一组特征传递给第二个自编码器中的编码器,以此提取第二组特征。
2.2.4 训练最终Softmax层
训练Softmax层以对50维特征向量进行分类。与自编码器不同,将使用训练数据的标签以有监督方式训练Softmax层。
2.2.5 形成堆叠神经网络
已单独训练了组成堆叠神经网络的三个网络:autoenc1、autoenc2和Softmax。
将自编码器中的编码器与Softmax层堆叠在一起形成用于分类的堆叠网络。
2.2.6 微调堆叠神经网络
为了更好地进行分类,通过以有监督方式基于训练数据重新训练网络来对整个多层网络执行反向传播,改进堆叠神经网络的结果。
2.3 基于自编码网络的乳腺病变检测
本文使用乳腺X线图像数据进行测试。每个数据图像为256×256像素,共有1375张测试样本,其中包括1000张正常的乳腺X线图像和375张已发生病变的乳腺X线图像。通过for循环依次将1375张测试数据加载到MATLAB中,然后使用imsize函数把每个数据图像压缩为28×28像素,利用rgb2gray函数将真彩色图像转换成灰度图像。数据集加载方式与训练数据集加载方式类似,可参考前文。
测试图像的标签存储在一个2×1375的矩阵中,其中每列都有一个元素为1,指示该图像所属的类,该列中的所有其他元素为0。
2.4 实验结果分析
在MATLAB command window窗口输入guide命令查看图形用户界面GUI,包括一个可编辑文本;四个按钮,功能分别是导入训练数据、训练网络、导入测试数据、测试;两个坐标轴,用于展示训练集和测试集中的部分乳腺X线图像。
可以看出目标类加载的1000个正常的测试数据中有988个被正确检测出,12个被检测错误,第一类数据检测的准确率为98.8%;加载的1000个正常的测试数据中有988个被正确检测出,12个被检测错误,第一类数据检测的准确率为98.8%;目标类加载的375个有病变的测试数据中有350个被正确检测出,25个被检测错误,第二类数据检测的准确率为93.3%;输出类中第一类数据被正确检测的有988张,错误检测的有25张,检测的准确率为97.5%;输出类中第二类数据被正确检测的有350张,错误检测的有12张,检测的准确率为96.7%;经过多次测试,整个系统分类的准确率最高达到了97.3%。
3. 结论
在本文完成过程中,做了大量的实验工作,实现了基于自编码网络的方法对乳腺X线图像中的病变进行检测。本文将自编码网络模型应用在乳腺病变的检测任务中,提高了计算机辅助诊断系统的精度,测试阶段,单幅图像平均处理时间为0.00236秒。经过多次测试,整个系统分类的准确率最高达到了97.3%。为医生诊断患者是否患有乳腺癌病变提供了有力的帮助。
参考文献
[1] 王金平. 基于深度卷积稀疏自编码分层网络的人脸识别技术. 太原理工大学学报,2018,49(05):765~770
[2] 朱恩泽. 基于深度学习的医学图像分割方法. 徐州医科大学学报,2019,39(2):143~147
[3] 余立付. 基于深度自编码网络的高光谱图像空谱联合分类:[硕士学位论文]. 西安:西安电子科技大学,2017
关键词:乳腺X线图像;稀疏自编码器;深度学习;病变检测;MATLAB
1. 前言
目前国内外学者先后提出了多种乳腺病变检测系统。Christoyiarni等人提出在肿块疑似区域上利用独立元分析方法提取特征辨别肿块与正常组织,再利用神经网络方法分类训练肿块,能达到较高检测率同时能区分肿块的良恶性[1]。尽管特征提取确实得到很大提升,但是CAD系统中的分类器在分类病变图像的准确度上仍然存在很大缺陷。近年来,深度学习在诸多领域能够同时进行特征学习和分类,深度学习技术中的无监督特征学习技术已经成功地被应用于计算机视觉领域。因其不需要依赖于先验知识,可以自适应地构建有效的特征描述,所以灵活性和普遍性较传统特征提取方法更具有优越性[2]。自编码器(Auto-encoder,AE)就是深度学习中最流行的代表性学习方法中的一种,该学习方法能实现良好的性能,并具有较少的调节参数和低的迭代次数等优点,在图像特征表达中得到广泛的运用[3]。由此设计一个基于自编码网络的乳腺病变检测系统,采用无监督自编码网络训练及有监督的微调,训练建立能够区分乳腺X线图像是否发生病变的神经网络模型,检测结果对乳腺癌诊断有很好的参考价值,对促进医学影像诊断的智能化发展具有重要的意义。
2. 基于自编码网络的乳腺病变检测系统
2.1 数据集加载
本文使用乳腺X线图像数据进行训练和测试。每个数据图像为256×256像素,共有1200张训练样本,其中包括1000张正常的乳腺X线图像和200张已发生病变的乳腺X线图像。通过for循环依次将1200张训练数据加载到MATLAB中,然后使用imresize函数把每个数据图像压缩为28×28像素,利用rgb2gray函数将真彩色图像转换成灰度图像。
训练图像的标签存储在一个2×1200的矩阵中,其中每列都有一个元素为1,指示该图像所属的类,该列中的所有其他元素为0。数据加载完成后利用for循环查看其中一些图像,查看效果。
2.2 训练自编码网络
2.2.1 训练第一个自编码器
首先在不使用标签的情况下基于训练数据训练稀疏自编码器。自编码器是一种神经网络,该网络会尝试在其输出端复制其输入。因此,其输入的大小将与其输出的大小相同。当隐含层中的神经元数量小于输入的大小时,自编码器将学习输入的压缩表示。
第一步:顯示设置随机数生成器种子。
第二步:设置自编码器的隐含层的大小。
第三步:训练自编码器。
第四步:可以使用view函数查看自编码器的图。自编码器由一个编码器和一个解码器组成。编码器将输入映射为隐含表示,解码器则尝试进行逆映射以重新构造原始输入。
2.2.2 可视化第一个自编码器的权重
自编码器的编码器部分所学习的映射可用于从数据中提取特征。编码器中的每个神经元都具有一个与之相关联的权重向量,该向量将进行相应调整以响应特定可视化特征。
自编码器的隐含层的100维输出是输入的压缩版本,它汇总了对上面可视化的特征的响应。基于从训练数据中提取的一组向量训练下一个自编码器。首先,必须使用经过训练的自编码器中的编码器生成特征。
2.2.3 训练第二个自编码器
第二个自编码器的训练与第一个类似,主要区别在于将使用从第一个自编码器生成的特征作为第二个自编码器中的训练数据并且将隐含表示的大小减小到50,以便第二个自编码器中的编码器学习输入数据的更小表示。将前一组特征传递给第二个自编码器中的编码器,以此提取第二组特征。
2.2.4 训练最终Softmax层
训练Softmax层以对50维特征向量进行分类。与自编码器不同,将使用训练数据的标签以有监督方式训练Softmax层。
2.2.5 形成堆叠神经网络
已单独训练了组成堆叠神经网络的三个网络:autoenc1、autoenc2和Softmax。
将自编码器中的编码器与Softmax层堆叠在一起形成用于分类的堆叠网络。
2.2.6 微调堆叠神经网络
为了更好地进行分类,通过以有监督方式基于训练数据重新训练网络来对整个多层网络执行反向传播,改进堆叠神经网络的结果。
2.3 基于自编码网络的乳腺病变检测
本文使用乳腺X线图像数据进行测试。每个数据图像为256×256像素,共有1375张测试样本,其中包括1000张正常的乳腺X线图像和375张已发生病变的乳腺X线图像。通过for循环依次将1375张测试数据加载到MATLAB中,然后使用imsize函数把每个数据图像压缩为28×28像素,利用rgb2gray函数将真彩色图像转换成灰度图像。数据集加载方式与训练数据集加载方式类似,可参考前文。
测试图像的标签存储在一个2×1375的矩阵中,其中每列都有一个元素为1,指示该图像所属的类,该列中的所有其他元素为0。
2.4 实验结果分析
在MATLAB command window窗口输入guide命令查看图形用户界面GUI,包括一个可编辑文本;四个按钮,功能分别是导入训练数据、训练网络、导入测试数据、测试;两个坐标轴,用于展示训练集和测试集中的部分乳腺X线图像。
可以看出目标类加载的1000个正常的测试数据中有988个被正确检测出,12个被检测错误,第一类数据检测的准确率为98.8%;加载的1000个正常的测试数据中有988个被正确检测出,12个被检测错误,第一类数据检测的准确率为98.8%;目标类加载的375个有病变的测试数据中有350个被正确检测出,25个被检测错误,第二类数据检测的准确率为93.3%;输出类中第一类数据被正确检测的有988张,错误检测的有25张,检测的准确率为97.5%;输出类中第二类数据被正确检测的有350张,错误检测的有12张,检测的准确率为96.7%;经过多次测试,整个系统分类的准确率最高达到了97.3%。
3. 结论
在本文完成过程中,做了大量的实验工作,实现了基于自编码网络的方法对乳腺X线图像中的病变进行检测。本文将自编码网络模型应用在乳腺病变的检测任务中,提高了计算机辅助诊断系统的精度,测试阶段,单幅图像平均处理时间为0.00236秒。经过多次测试,整个系统分类的准确率最高达到了97.3%。为医生诊断患者是否患有乳腺癌病变提供了有力的帮助。
参考文献
[1] 王金平. 基于深度卷积稀疏自编码分层网络的人脸识别技术. 太原理工大学学报,2018,49(05):765~770
[2] 朱恩泽. 基于深度学习的医学图像分割方法. 徐州医科大学学报,2019,39(2):143~147
[3] 余立付. 基于深度自编码网络的高光谱图像空谱联合分类:[硕士学位论文]. 西安:西安电子科技大学,2017