基于深度柔性神经森林的癌症亚型分类研究

来源 :济南大学 | 被引量 : 0次 | 上传用户:hudawen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同一种癌症可以细分为许多种不同的亚型,而不同的癌症亚型对治疗方案有着截然不同的预后反应和治疗结果。癌症亚型的发现和确定在癌症的治疗过程中至关重要,它是为癌症患者提供个性化精准治疗的关键依据。利用基因组测序技术获得癌症基因组数据,研究者可以从分子水平上对癌症亚型进行分类。但是由于基因表达数据具有高维、小样本、高噪声、高冗余等特点,这使得传统的机器学习方法在使用基因表达数据进行癌症亚型分类预测时,其分类结果容易受到噪音和冗余信息的干扰,导致分类准确率较低。为了避免这些干扰,一方面需要减少基因表达数据里的噪声和冗余信息,另一方面需要精心设计适合于这种高维小样本数据的分类模型。本文在梳理和总结了癌症亚型分类相关研究的基础之上,针对目前应用基因表达数据进行癌症亚型分类的问题,分别从特征基因选择、分类器性能改进及多组学数据融合三个方面展开研究,提出了基于Fisher率和邻域粗糙集的特征选择方法,建立了深度柔性神经森林模型,以及提出了层级融合深度柔性神经森林框架。实验结果显示,通过特征选择和使用新的分类模型,癌症亚型分类的准确性得到显著提高,并能够找出了对癌症亚型的有重要影响的特征基因集,为后续精准医疗提供重要依据。本文的主要研究内容和创新点如下:(1)提出了基于Fisher率和邻域粗糙集的特征选择方法。首先采用Fisher率对所有基因进行排序,并取其前k个基因作为初选基因子集,过滤了无关基因;然后采用基于邻域粗糙集的前向贪心数值属性约简算法实现基因终选,进一步剔除了冗余基因。因此,采用了一种“预选+终选”的策略,Fisher率和邻域粗糙集两个算法的结合,可以有效去除大量的无关基因,减少邻域粗糙集约简过程的时空消耗,同时也减少分类器的训练时间。实验结果表明,提出的算法在选择的特征数量和分类准确率上等方面明显优于Fisher率、邻域粗糙集和最大相关最小冗余等算法。(2)提出了用于癌症亚型分类的深度柔性神经森林模型。深度柔性神经森林模型是一种柔性神经树集成模型,解决了柔性神经树不能直接处理多分类问题和模型深度增加导致参数优化算法高成本这两个难题。首先,设计了深度柔性神经森林模型,在每一层采用M-ary算法集成多个柔性神经树来处理多分类问题。其次,深度柔性神经森林模型采用级联结构,能够在不增加柔性神经树的参数的基础上增加整个模型深度。通过树形结构优化算法自动选择柔性神经树结构,并且自适应地确定整个级联层次的数量,使其适用于小规模基因组数据。实验结果表明,提出的算法在分类准确率上优于K最近邻算法、支持向量机、多层感知机和随机森林等传统的分类算法以及深度森林等深度学习模型。(3)提出了用于融合多组学数据进行癌症亚型分类的层级融合深度柔性神经森林框架。针对癌症的异质性和复杂性,提出融合多组学数据的癌症亚型分类方法。首先,采用栈式自编码器分别学习每个组学数据中的高级表示;然后,将所有学习到的高级表示融合到另一层自编码器中以学习更复杂的数据表示;最后,将学习到的复杂的数据表示作为深度柔性神经森林模型的输入得到最终的类别标签。层级融合深度柔性神经森林框架通过采用多个自编码器分别学习每个组学数据的高级表示,考虑到了每种数据类型的固有属性,又通过另一层自编码器融合之前所学习到的多组学数据的高级表示,考虑到了不同组学数据之间的相关性。实验结果表明,提出的模型融合基因表达数据、miRNA表达数据和DNA甲基化数据比仅使用基因表达数据用于癌症亚型分类获得了更高的分类准确率,并且其分类性能优于K最近邻算法、支持向量机、随机森林、深度森林等分类器以及融合多组学数据的mix Omics等算法。
其他文献
机器学习方法是一种时下相当热门的方法,它在计算机视觉,自然语言处理,数据挖掘,自动驾驶等等领域取得了巨大的成果。当下,由于某类机器学习方法的激活函数与传统有限元方法
铁路在我国交通体系中一直处于骨干地位,是连接各大经济区域之间、城乡之间交通与经济的运输大动脉。铁路对地方经济社会发展起着保障性的基础作用,也是未来持续发展的强大动
作为一种重要的优化方法,进化算法以其实现简易、效果突出等优点在许多单目标连续优化问题上得到了广泛应用。然而,没有免费午餐定理(No Free Lunch Theorem)揭示了优化算法
近年来,图像分类算法发展迅猛、成果显著,尤其是以基于深度学习的图像分类算法更是取得了比肩人类的性能。但是该领域的发展仍存在以下两大挑战。首先,虽然基于深度学习的图
随着信息科学技术的快速发展,物联网逐渐在人类社会的各个领域铺开,在社会经济发展和社会建设过程中起到了重要的作用。在以监测为主要目的的物联网中,无线传感器网络被大量
音频信号作为信息传递的主要途径,相比于视频而言,拥有采集设备简单、方式便捷、所需存储空间小及隐私性高等优点,因此音频监控弥补了视频监控的许多不足,成为安全监控领域关
随着我国城市化进程的加快,城市交通拥堵成为制约城市发展的重要问题。近年来,社会各界都普遍意识到要靠发展公共交通来缓解城市的拥堵。公交出行具有方便、灵活、成本低的特
地图构建与定位是无人驾驶研究领域的关键技术之一。基于激光雷达及其它传感器构建高精度地图是当前的主流方式,然而受传感器性能及成本等限制,再加上无人车行驶环境的复杂性
随着物联网技术的发展,传感器网络逐渐趋向产业化。其中作为物联网核心的RFID技术的应用也越来越广泛,例如仓库管理、物品防伪和目标追踪等。近年来,分类的RFID系统引起了学
近年来,随着海底油气管道服役时间的增长,管道内腐蚀泄露问题日益凸显,已严重威胁到管道的安全运营以及海洋的生态稳定。如何对海底油气管道内腐蚀进行合理的预测,准确判定海