论文部分内容阅读
同一种癌症可以细分为许多种不同的亚型,而不同的癌症亚型对治疗方案有着截然不同的预后反应和治疗结果。癌症亚型的发现和确定在癌症的治疗过程中至关重要,它是为癌症患者提供个性化精准治疗的关键依据。利用基因组测序技术获得癌症基因组数据,研究者可以从分子水平上对癌症亚型进行分类。但是由于基因表达数据具有高维、小样本、高噪声、高冗余等特点,这使得传统的机器学习方法在使用基因表达数据进行癌症亚型分类预测时,其分类结果容易受到噪音和冗余信息的干扰,导致分类准确率较低。为了避免这些干扰,一方面需要减少基因表达数据里的噪声和冗余信息,另一方面需要精心设计适合于这种高维小样本数据的分类模型。本文在梳理和总结了癌症亚型分类相关研究的基础之上,针对目前应用基因表达数据进行癌症亚型分类的问题,分别从特征基因选择、分类器性能改进及多组学数据融合三个方面展开研究,提出了基于Fisher率和邻域粗糙集的特征选择方法,建立了深度柔性神经森林模型,以及提出了层级融合深度柔性神经森林框架。实验结果显示,通过特征选择和使用新的分类模型,癌症亚型分类的准确性得到显著提高,并能够找出了对癌症亚型的有重要影响的特征基因集,为后续精准医疗提供重要依据。本文的主要研究内容和创新点如下:(1)提出了基于Fisher率和邻域粗糙集的特征选择方法。首先采用Fisher率对所有基因进行排序,并取其前k个基因作为初选基因子集,过滤了无关基因;然后采用基于邻域粗糙集的前向贪心数值属性约简算法实现基因终选,进一步剔除了冗余基因。因此,采用了一种“预选+终选”的策略,Fisher率和邻域粗糙集两个算法的结合,可以有效去除大量的无关基因,减少邻域粗糙集约简过程的时空消耗,同时也减少分类器的训练时间。实验结果表明,提出的算法在选择的特征数量和分类准确率上等方面明显优于Fisher率、邻域粗糙集和最大相关最小冗余等算法。(2)提出了用于癌症亚型分类的深度柔性神经森林模型。深度柔性神经森林模型是一种柔性神经树集成模型,解决了柔性神经树不能直接处理多分类问题和模型深度增加导致参数优化算法高成本这两个难题。首先,设计了深度柔性神经森林模型,在每一层采用M-ary算法集成多个柔性神经树来处理多分类问题。其次,深度柔性神经森林模型采用级联结构,能够在不增加柔性神经树的参数的基础上增加整个模型深度。通过树形结构优化算法自动选择柔性神经树结构,并且自适应地确定整个级联层次的数量,使其适用于小规模基因组数据。实验结果表明,提出的算法在分类准确率上优于K最近邻算法、支持向量机、多层感知机和随机森林等传统的分类算法以及深度森林等深度学习模型。(3)提出了用于融合多组学数据进行癌症亚型分类的层级融合深度柔性神经森林框架。针对癌症的异质性和复杂性,提出融合多组学数据的癌症亚型分类方法。首先,采用栈式自编码器分别学习每个组学数据中的高级表示;然后,将所有学习到的高级表示融合到另一层自编码器中以学习更复杂的数据表示;最后,将学习到的复杂的数据表示作为深度柔性神经森林模型的输入得到最终的类别标签。层级融合深度柔性神经森林框架通过采用多个自编码器分别学习每个组学数据的高级表示,考虑到了每种数据类型的固有属性,又通过另一层自编码器融合之前所学习到的多组学数据的高级表示,考虑到了不同组学数据之间的相关性。实验结果表明,提出的模型融合基因表达数据、miRNA表达数据和DNA甲基化数据比仅使用基因表达数据用于癌症亚型分类获得了更高的分类准确率,并且其分类性能优于K最近邻算法、支持向量机、随机森林、深度森林等分类器以及融合多组学数据的mix Omics等算法。