论文部分内容阅读
脑胶质瘤是中枢神经系统最常见的脑部恶性肿瘤,具有发病率高、复发率高、死亡率高、致残率高和治愈率低的特点,术前对脑胶质瘤精准诊断成为挽救患者生命的重要前提。影像组学是一种新兴的医学影像分析技术,通过对影像的感兴趣区域进行高通量的特征提取,采用多样化的统计分析和数据挖掘方法,实现肿瘤的分级预测。由于影像组学计算出的特征是高维的,而医学影像数据集因其特殊性,往往难以获得大量优质样本,若直接用高维特征进行模型训练,容易出现过拟合的现象。因此,如何对高维特征进行选择是影像组学面临的一大挑战。本文针对脑胶质瘤影像的特点,考虑了肿瘤边界对脑胶质瘤特征的影响,在已有的特征选择算法的基础上,提出了两种新的特征选择算法用于脑胶质瘤影像组学研究。(1)提出了一种基于遗传算法的混合F-Score和信息增益的多级特征选择算法(MSOM-GA,Mean Score of Mixed-Genetic Algorithm)。通过对现在研究中常用的过滤式、嵌入式和装式特征选择算法分析发现,单一类型的特征选择算法不能全面的考虑到特征的相关性和冗余性等特点;并且不同特征选择算法的侧重点不同,选择出的特征子集会有较大的差别,造成训练结果的不稳定。因此,本文首先用组内相关系数进行稳定性选择,之后,为了解决单一性评价指标的问题,提出了一种混合F-Score和信息增益的特征选择算法(MSOM),作为相关性特征选择;最后,用传统的算法进行三级筛选,去除冗余特征。该结果在河南省人民医院的脑胶质瘤数据集上进行分级实验,实验表明,此特征选择算法提高了脑胶质瘤分级的准确性。(2)提出了一种基于改进遗传算法的混合F-Score和信息增益的多级特征选择算法(MSOM-IAGA,Mean Score of Mixed-Improve Adaptive Genetic Algorithm),该算法基于(1)的基础上,对遗传算法进行改进。遗传算法在进化过程中采用固定的交叉概率和变异概率,容易出现“早熟”现象;自适应遗传算法尽管可以根据种群进化代数动态改变交叉概率和变异概率,但会出现当代种群中适应度最大的个体不进行遗传操作的情况,由此导致该算法得到的可能是局部最优解,而非真正意义上的最优特征。因此,本算法针对自适应交叉概率和变异概率进行改进,目的是使得当代种群中最大适应度的个体也有具有一定交叉和变异的概率,防止最终种群陷入局部最优。该特征选择算法的结果在河南省人民医院的脑胶质瘤数据集上进行分级实验研究,结果表明,此特征选择算法对比与(1)提出的算法,显著提高了脑胶质瘤分级的准确性。