论文部分内容阅读
肺癌是目前发病率和死亡率最高的恶性肿瘤。研究表明,早发现、早诊断和早治疗是提高肺癌患者生存率最有效的方法。计算机X射线断层扫描(CT)是肺癌早期检查最好的影像学方法,而肺结节是肺癌早期的影像学表现形式。因此准确检测肺结节、识别其良恶性,进而及时治疗,对挽救肺癌患者的生命具有重要意义。高分辨率CT的出现为正确诊断肺部疾病提供了有力的工具,但海量的CT影像数据也给医生增加工作负担。肺癌计算机辅助诊断技术(Computer-Aided Diagnosis,CAD)能有效减少放射科医生阅片工作量和单独阅片的疏漏,对提高结节检测准确率、降低漏检率和辅助医生实现无创的肺结节良恶性诊断,从而避免不必要的活检,减轻患者痛苦及节省医疗成本有重要意义。本文以肺部CT影像为研究对象,围绕肺癌CAD的特征提取和分类展开研究。主要研究工作如下:(1)LIDC-IDRI数据集是目前世界上最大的公共肺结节图像数据库,提供了多个专家对肺结节的标注,但缺乏统一的“金标准”。本文对多专家标注的“金标准”生成方法进行研究,针对STAPLE(Simultaneous Truth and Performance Level Estimation,STAPLE)算法在图像分割目标和背景尺寸严重失衡情况下导致生成“金标准”偏大的问题,提出了一种基于数据欠采样的STAPLE改进算法,并应用于LIDC-IDRI数据集的“金标准”生成,为后续研究提供数据基础。(2)面向假阳性结节去除,对肺结节图像特征提取方法进行研究。提出了一种自适应体窗的表面法线方向直方图(Histogram of Oriented Surface Normal,HoSN)的特征提取方法。该方法以候选结节为中心,自适应地生成包含候选结节和其部分周围组织的体窗,提取体窗内像素的表面法线方向直方图作为特征描述子。该方法不依赖结节分割结果的准确性,只需初步的结节分割结果即可,具有较强的鲁棒性。在多尺度圆点滤波的肺结节检测方法中应用HoSN特征去除假阳性结节,肺结节检测的敏感性达到97.2%,假阳性率为6.45FPs/Scan。和其他特征提取方法对比,实验结果表明了HoSN特征的有效性。(3)对肺结节语义特征提取方法进行研究,针对LIDC-IDRI数据集中专家对结节语义特征标注存在不一致问题,提出一种半监督协同森林的肺结节语义特征提取方法。该方法将具有较高语义标注一致性的结节作为有标记样本,其余为未标记样本,利用有标记样本训练随机森林,通过加入置信度高的样本提高图像底层特征到高层语义特征映射模型的准确率。实验结果表明,相比仅使用有标记样本的决策树、随机森林算法,半监督协同森林方法在LIDC-IDRI结节语义特征提取的平均准确率可提高到94.96%。(4)针对结节检测环节产生的候选结节中假阳性结节数量远大于真阳性结节的情况,研究基于不平衡学习的假阳性去除方法。提出一种基于权重的边界样本过采样(Weighted Border Synthetic Minority Over-sampling Technique,WBSMOTE)方法。该方法以样本到决策面的距离、样本密度分布、和其反向近邻的密度分布为因子,计算样本权重,样本权重越高被选中成为种子样本合成新样本的概率越大。在候选结节数据集上的实验结果显示,该方法在SVM和ANN分类器上的性能优于SMOTE、Borderline-SMOTE和ADASYN算法,结节检测性能分别达到敏感性94.2%,93%,假阳性率2.4FPs/Scan和2.6FPs/Scan。(5)针对肺结节良恶性诊断中提取的结节特征具有多源、异质的特点,提出一种基于特征源分组的选择性集成学习方法用于肺结节良恶性分类。按来源将特征分组,采用随机特征子空间方法选择特征子集训练基分类器,按照准确率和互补性对基分类器进行排序,选择最优分类器集合,在集成学习框架下,用加权投票方式进行综合决策。以SVM、ANN为基分类器的实验结果表明,该方法比单分类器、随机特征分组的集成学习方法都具有更高的分类准确率,分类的AUC值分别达到了0.9315和0.9319。