基于深度柔性神经森林的癌症亚型分类研究

来源 :济南大学 | 被引量 : 0次 | 上传用户：hudawen

【摘要】

：

同一种癌症可以细分为许多种不同的亚型,而不同的癌症亚型对治疗方案有着截然不同的预后反应和治疗结果。癌症亚型的发现和确定在癌症的治疗过程中至关重要,它是为癌症患者提

【作者】

：

徐静

【出处】

：

济南大学

【发表日期】

：

2020年01期

【关键词】

：

癌症亚型分类级联森林基因选择数据融合深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

同一种癌症可以细分为许多种不同的亚型,而不同的癌症亚型对治疗方案有着截然不同的预后反应和治疗结果。癌症亚型的发现和确定在癌症的治疗过程中至关重要,它是为癌症患者提供个性化精准治疗的关键依据。利用基因组测序技术获得癌症基因组数据,研究者可以从分子水平上对癌症亚型进行分类。但是由于基因表达数据具有高维、小样本、高噪声、高冗余等特点,这使得传统的机器学习方法在使用基因表达数据进行癌症亚型分类预测时,其分类结果容易受到噪音和冗余信息的干扰,导致分类准确率较低。为了避免这些干扰,一方面需要减少基因表达数据里的噪声和冗余信息,另一方面需要精心设计适合于这种高维小样本数据的分类模型。本文在梳理和总结了癌症亚型分类相关研究的基础之上,针对目前应用基因表达数据进行癌症亚型分类的问题,分别从特征基因选择、分类器性能改进及多组学数据融合三个方面展开研究,提出了基于Fisher率和邻域粗糙集的特征选择方法,建立了深度柔性神经森林模型,以及提出了层级融合深度柔性神经森林框架。实验结果显示,通过特征选择和使用新的分类模型,癌症亚型分类的准确性得到显著提高,并能够找出了对癌症亚型的有重要影响的特征基因集,为后续精准医疗提供重要依据。本文的主要研究内容和创新点如下:(1)提出了基于Fisher率和邻域粗糙集的特征选择方法。首先采用Fisher率对所有基因进行排序,并取其前k个基因作为初选基因子集,过滤了无关基因;然后采用基于邻域粗糙集的前向贪心数值属性约简算法实现基因终选,进一步剔除了冗余基因。因此,采用了一种“预选+终选”的策略,Fisher率和邻域粗糙集两个算法的结合,可以有效去除大量的无关基因,减少邻域粗糙集约简过程的时空消耗,同时也减少分类器的训练时间。实验结果表明,提出的算法在选择的特征数量和分类准确率上等方面明显优于Fisher率、邻域粗糙集和最大相关最小冗余等算法。(2)提出了用于癌症亚型分类的深度柔性神经森林模型。深度柔性神经森林模型是一种柔性神经树集成模型,解决了柔性神经树不能直接处理多分类问题和模型深度增加导致参数优化算法高成本这两个难题。首先,设计了深度柔性神经森林模型,在每一层采用M-ary算法集成多个柔性神经树来处理多分类问题。其次,深度柔性神经森林模型采用级联结构,能够在不增加柔性神经树的参数的基础上增加整个模型深度。通过树形结构优化算法自动选择柔性神经树结构,并且自适应地确定整个级联层次的数量,使其适用于小规模基因组数据。实验结果表明,提出的算法在分类准确率上优于K最近邻算法、支持向量机、多层感知机和随机森林等传统的分类算法以及深度森林等深度学习模型。(3)提出了用于融合多组学数据进行癌症亚型分类的层级融合深度柔性神经森林框架。针对癌症的异质性和复杂性,提出融合多组学数据的癌症亚型分类方法。首先,采用栈式自编码器分别学习每个组学数据中的高级表示;然后,将所有学习到的高级表示融合到另一层自编码器中以学习更复杂的数据表示;最后,将学习到的复杂的数据表示作为深度柔性神经森林模型的输入得到最终的类别标签。层级融合深度柔性神经森林框架通过采用多个自编码器分别学习每个组学数据的高级表示,考虑到了每种数据类型的固有属性,又通过另一层自编码器融合之前所学习到的多组学数据的高级表示,考虑到了不同组学数据之间的相关性。实验结果表明,提出的模型融合基因表达数据、miRNA表达数据和DNA甲基化数据比仅使用基因表达数据用于癌症亚型分类获得了更高的分类准确率,并且其分类性能优于K最近邻算法、支持向量机、随机森林、深度森林等分类器以及融合多组学数据的mix Omics等算法。

其他文献

用机器学习方法解分数阶偏微分方程和不连续问题

机器学习方法是一种时下相当热门的方法,它在计算机视觉,自然语言处理,数据挖掘,自动驾驶等等领域取得了巨大的成果。当下,由于某类机器学习方法的激活函数与传统有限元方法

学位

深度学习分数阶偏微分方程非连续问题

铁路运力与城镇化协调发展研究

铁路在我国交通体系中一直处于骨干地位,是连接各大经济区域之间、城乡之间交通与经济的运输大动脉。铁路对地方经济社会发展起着保障性的基础作用,也是未来持续发展的强大动

学位

铁路运力城镇化主成分分析评价体系指标耦合协调度

面向多样性增强的测试问题构造及进化算法研究

作为一种重要的优化方法,进化算法以其实现简易、效果突出等优点在许多单目标连续优化问题上得到了广泛应用。然而,没有免费午餐定理(No Free Lunch Theorem)揭示了优化算法

学位

进化计算测试问题神经网络粒子群优化局部搜索

基于视觉混淆特性的图像分类算法研究

近年来,图像分类算法发展迅猛、成果显著,尤其是以基于深度学习的图像分类算法更是取得了比肩人类的性能。但是该领域的发展仍存在以下两大挑战。首先,虽然基于深度学习的图

学位

计算机视觉图像分类支持向量机贝叶斯学习深度学习

基于进化算法的物联网节点定位技术及计算卸载技术研究

随着信息科学技术的快速发展,物联网逐渐在人类社会的各个领域铺开,在社会经济发展和社会建设过程中起到了重要的作用。在以监测为主要目的的物联网中,无线传感器网络被大量

学位

物联网节点定位计算卸载进化算法

基于ICRNN-GRU异常音频事件检测及增强算法研究

音频信号作为信息传递的主要途径,相比于视频而言,拥有采集设备简单、方式便捷、所需存储空间小及隐私性高等优点,因此音频监控弥补了视频监控的许多不足,成为安全监控领域关

学位

异常音频音频检测深度学习声谱图数据增强

基于城市公交轨迹数据的车辆到站时间预测算法研究

随着我国城市化进程的加快,城市交通拥堵成为制约城市发展的重要问题。近年来,社会各界都普遍意识到要靠发展公共交通来缓解城市的拥堵。公交出行具有方便、灵活、成本低的特

学位

数据融合时间序列模糊支持向量机神经网络

基于视觉的多分辨率地图构建与定位

地图构建与定位是无人驾驶研究领域的关键技术之一。基于激光雷达及其它传感器构建高精度地图是当前的主流方式,然而受传感器性能及成本等限制,再加上无人车行驶环境的复杂性

学位

视觉定位地图神经网络多分辨率分层定位

RFID系统中一种有效地查询大类小类的协议

随着物联网技术的发展,传感器网络逐渐趋向产业化。其中作为物联网核心的RFID技术的应用也越来越广泛,例如仓库管理、物品防伪和目标追踪等。近年来,分类的RFID系统引起了学

学位

大类小类RFID系统查询时间效率

在役海底油气管道内腐蚀速率预测研究

近年来,随着海底油气管道服役时间的增长,管道内腐蚀泄露问题日益凸显,已严重威胁到管道的安全运营以及海洋的生态稳定。如何对海底油气管道内腐蚀进行合理的预测,准确判定海

学位

CO2内腐蚀熵权灰色关联法智能机器学习算法内腐蚀速率预测

基于深度柔性神经森林的癌症亚型分类研究

与本文相关的学术论文