论文部分内容阅读
肺癌作为全球癌症发病率和死亡率最高的恶性肿瘤之一,做到“早发现、早诊断、早治疗”具有重大的现实意义。基于肺部CT图像的计算机辅助检测系统(CAD)对检测早期肺癌、提高患者相对存活率起着至关重要的作用。CAD系统不仅能提升结节检测的准确率和敏感性,还能大幅缩减放射科医师阅片的工作量及单独阅片的疏漏,作为“第二意见”辅助放射科医师进行疾病诊断。鉴于肺癌的复杂性和异质性,本文以基于肺部CT图像的肺结节计算机辅助检测系统为研究主线,提出“基于肺部CT图像的肺结节检测技术研究”这一课题。针对肺结节CAD系统的特征提取、特征降维、分类等关键环节进行深入分析、改进和实验研究,从而达到进一步提升肺结节CAD系统性能的目的。本论文的主要研究工作与创新如下:(1)基于流形学习的肺结节特征降维方法研究。由于肺部CT图像的复杂性决定着肺结节特征的高维和非线性特性,故采用基于流形学习理论的有监督的局部线性嵌入(SLLE)算法进行降维,又因SLLE算法中的欧式距离不能很好地表达高维空间中样本点之间的相似性,为此提出一种基于斯皮尔曼相关系数(Spearman Correlation Coefficient)的SLLE降维算法,记为SC~2SLLE,即通过引入斯皮尔曼相关系数,构建新的适用于衡量高维空间样本点之间相似性的距离测度,对SLLE算法中的欧式距离进行改进。采用国际标准LIDC/IDRI肺部CT图像数据库进行实验,先经过图像预处理、肺实质分割、肺结节分割等操作,提取所有疑似肺结节,再对疑似肺结节提取灰度、纹理和形态等特征,采用提出的SC~2SLLE算法进行特征降维,最后利用支持向量机(SVM)结合降维后的特征进行分类验证。实验结果表明所提出的SC~2SLLE降维算法优于有监督的SLLE算法和无监督的局部线性嵌入算法(LLE),其降维效果显著。(2)基于字典学习和稀疏表达的肺结节特征提取方法研究。针对现有的肺部CT图像分割方法很难取得精确分割效果的问题,提出并研究基于字典学习和稀疏表达的肺结节特征提取方法。即利用基于分类任务的字典学习模型,为每类训练样本学习一个具有判别性的类别字典,同时为所有训练样本学习一个包含共享信息的背景字典;再将类别字典和背景字典构造成一个大字典,采用正交匹配追踪(OMP)算法对所有样本进行稀疏表达;根据字典原子与样本稀疏表达系数之间的对应关系以及字典原子对稀疏系数矩阵的贡献度,提取具有判别性的特征向量作为样本特征。采用国际标准LIDC/IDRI数据库对孤立型和胸膜粘连型两类肺结节进行实验,训练得到两个类别字典和一个背景字典,利用提出的基于字典学习模型的特征提取方法提取特征集,采用SC~2SLLE算法进行特征降维和SVM方法进行分类验证。结果表明采用所提出的特征提取方法是有效可行的,其综合评估诊断实验价值的ROC曲线下面积(AUC)达到0.9041,这充分表明采用基于字典学习模型的特征提取方法提取的特征更具代表性,刻画出样本内在固有特性。(3)改进的相关向量机(RVM)方法在肺结节检测中的研究。针对传统RVM分类算法中核函数的参数由经验值或均匀分布选取等方法确定以及单核RVM在复杂样本处理和核函数选择中存在局限性等问题,提出一种基于粒子群优化算法(PSO)和二阶锥规划(SOCP)的多核学习RVM分类方法,记为PSO-SOCP-MKLRVM。首先针对单核RVM模型采用PSO算法优化RVM的核参数;然后在此基础上,构造多核RVM模型,进而推导和证明基于多核校正的RVM模型优化问题是一个凸规划问题;最后采用SOCP算法快速求解多核函数的组合系数。这样则得到基于PSO与SOCP相结合的多核学习RVM分类模型。通过LIDC/IDRI数据库的肺结节检测实验,即先采用基于字典学习模型的特征提取方法提取特征,再利用SC~2SLLE算法降维,最后利用提出的PSO-SOCP-MKLRVM进行分类验证,结果表明所提出的多核分类方法优于现有的多核和单核RVM等分类方法,系统AUC值高达0.9117,显然所提出的分类方法在肺结节检测中效果显著,为肺结节精确检测提供科学依据。