论文部分内容阅读
间质性肺部疾病(Insterstial Lung Disease, ILD)是包含有很多种肺部炎症和肺部纤维化疾病的总称。ILD常见的症状包括呼吸困难、干咳嗽和呼吸短促,这些症状对人们的生活有严重的负面影响。绝大多数的病人都需要肺部的高分辨率CT(High-resolution Computed Tomography, HRCT)扫描可视化不同的ILD肺部组织的细微纹理变化。计算机视觉技术比放射科医生能够更好地检测HRCT中不同肺部组织的细微差别。由于理解HRCT图像内在的复杂性,一种用以区分不同肺部组织类型的计算机方法给肺部医生提供诊断建议是非常有吸引力的。为了提高肺部组织分类系统的性能,在这篇论文中,本文提出了一些特征学习的方法。主要的研究内容如下:对肺部组织分类的主要工作是基于人工定义的特征。它们基于专家的知识和经验设计特征描述肺部组织。人工定义的特征的优点是能够快速地解决问题。然而,劣势也非常明显,由于特征是人工定义的,设计的特征可能并不适用于解决不同领域的其他问题;设计的特征是不全面的,需要融合几个特征来描述对象,导致特征的参数过多,优化过程费时费力;特征提取过程和分类阶段是独立的,两个过程的参数不能朝着更好的分类结果联合优化。特征学习是一种自动从原始数据中提取有用的、有区分能力的特征。除模型的结构参数外,无需指定这些方法的其他参数,而基于特征学习的方法可以解决不同领域的不同问题;随着大数据的流行,传统的人工特征不能充分利用大数据中的丰富信息,然而,基于模型强大的表达能力,特征学习能够完成这个目标;一些特征学习方法,如深度学习,能够联合优化特征提取阶段和分类阶段。卷积神经网络(Convolutional Neural Network, CNN)是一种特征学习方法,它在计算机视觉领域获得了很好的结果。考虑到人工定义特征的劣势和受限玻兹曼机(Restricted Boltzmann Machine, RBM)的无监督学习方式,因此决定采用CNN作为特征学习的模型。CNN能够以有监督的方式从肺部组织图像中自动学习有区分能力的特征。基于提取的CNN特征,为了提高分类效果,采用随机森林(Random Forest, RF)对肺部组织分类。RF是一种集成方法,它存在计算开销小、容易实现、不易过拟合和分类结果好的优点。同时,之前针对肺部组织分类的工作都有一个共同的问题:类别不平衡。如果分类器对此问题敏感,它在对小类样本分类时效果较差。本文提出在图像块准备阶段解决这个问题,而非其他的数据采样方法,如重采样(Oversampling)、SMOTE (Synthetic Minority Over-sampling Technique),通过改变相邻图像块之间的重叠区域大小,可以获得相对平衡的数据分布。尽管CNN-RF模型在平衡的数据分布上获得了比较好的结果,它仍然存在一些问题:特征的单一尺寸不足和未对肺部组织的旋转差异描述。利用提出的MRCNN (Multi-scale Rotation-invariant Convolutional Nerual Network)模型学习对肺部组织提供更丰富描述的多尺度特征和对各种肺部组织模式旋转差异进行描述的旋转不变性特征。受Gabor-LBP (Local Binary Pattern)特征成功地对肺部组织描述的启发,本文提出了使用多尺度、旋转不变的Gabor-LBP图像作为CNN的输入,得到多尺度、旋转不变的CNN特征,分类准确率进一步得到提高。