论文部分内容阅读
癌症是人类健康的重大威胁。癌症早期筛查与诊断是公认的降低癌症死亡率的有效方法。但是,不断恶化的癌症形势与专业人员的相对紧缺是当前癌症形势下所面临的一对尖锐矛盾。而癌症的智能筛查与诊断为解决这一矛盾提供了有效途径。近年来,人工神经网络特别是深度神经网络算法,在人工智能的各个领域取得了引人注目的成绩。而这种以数据为驱动的机器学习算法需要从大量的数据中进行学习。随着医疗信息化的不断深入,医疗行业数据量增长迅速。医疗数据的不断积累与人工神经网络的不断发展为癌症的智能筛查与诊断提供了有力的材料和工具。本论文主要对癌症的智能筛查与诊断进行研究。在深入研究医疗数据的特点并广泛分析相关研究工作的基础之上,本论文提出了一系列用于癌症智能筛查与诊断的神经网络模型,并在多个公开数据集上进行了性能评估与验证。具体而言,本论文的主要研究工作和成果包括:提出了多视野卷积神经网络(Multi-view Convolutional Neural Networks,MV-CNN)用于肺部CT的肺结节智能诊断。CT图像有两个特点。第一个特点就是病灶占整个图像很小的一部分,并且会影响周边的组织结构,所以病灶的周边组织环境也可以为医疗图像的诊断提供有效信息。针对这一点,提出了多视野卷积神经网络。该模型在输入层采用了多个信道,每个信道对应一个不同的视野。利用这个模型在 LIDC-IDRI(Lung Image Database Consortium and Image Database Resource Initiative)数据集上进行二分类(良性和恶性)和三分类(良性、原发恶性和转移恶性)的实验。二分类错误率为5.41%;三分类错误率为13.91%。与其他在这个数据集上的研究相比取得了更好的分类效果。CT图像第二个特点是由很多切片组成,这些切片连接起来描绘了内部器官的立体结构。针对这一特点,对上述模型进行了改进,提出了3D多视野卷积神经网络。该模型将数据和网络构架组织成3D模式,使得卷积在三个维度上进行滑动,从而能够提取肺结节三个空间维度上的特征。与其他相关研究不同的是,网络构架采用了 Inception模块的3D变体。在同样的数据集上,该模型对于二分类错误率降低为4.59%,对于三分类错误率降为7.70%。提出了适用于提高结构化数据分类性能的全连接层在前的卷积神经网络(Fully Connected Layer First Convolutional Neural Net-works,FCLF-CNN)用于基于细胞学特征的乳腺癌诊断。FCLF-CNN将全连接层置于卷积层之前,其作用在于将结构化数据转化为具有更好局部结构的数据表示。在实际操作中,该模型对卷积层之前的全连接层施加了两种损失函数,同时对应了两种网络构架。一种是softmax损失函数,对应1DFCLF-CNN构架;一种是均方差损失函数,对应2D FCLF-CNN构架。然后每种构架采用同时训练和分阶段训练的两种方式分别进行训练。4个FCLF-CNN的集成模型在WDBC数据集上的交叉验证取得了 98.71%的准确率、97.60%的敏感度和99.43%的特异性,在WBCD数据集上取得了99.28%的准确率、98.65%的特异性和99.57%的敏感度。与其他在这两个数据集上的研究相比取得了更好的结果。基于提出的FCLF-CNN,以血常规、尿常规及肿瘤标记物为特征,用于基于无症状的癌症筛查。并在极度非均衡场景下,设计了硬分类器和软分类器相结合的方法输出筛查结果。基于无症状的癌症筛查面向的是极度不均衡的场景。通过理论和实验的方法证明了硬分类器和软分类器都会受类别不均衡程度的影响。所以基于极度非均衡场景,设计了一种新的硬分类器和软分类器相结合的方法输出筛查结果。对于硬分类器,使用了最大互信息原则进行阈值的选择。对于软分类器,采用将得分对应的虚警率、漏报率和PPV同时输出的策略。核心模型采用了本论文中提出的FCLF-CNN,并将其应用于肺癌、肝癌、乳腺癌、宫颈癌及肾癌的筛查。与其他相关研究相比,其中肺癌和肝癌的模型获得了更有竞争力的筛查性能,其AUC分别达到了 0.8887与0.9432。