基于机器学习的抗癌药物反应预测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xsnxj112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤已经成为威胁人类生命健康和生活质量的重要疾病,如何为肿瘤患者选择最佳治疗药物是医疗卫生和生物信息学研究领域的前沿课题之一。目前,确定患者是否会对抗肿瘤药物产生反应通常需要花费数月的时间,中间要经历反复的试验,还伴随着随时出现误用的可能性。研发有效的抗癌药物反应预测方法已经成为肿瘤学研究的重要课题。药物敏感性建模的准确性高度依赖于数据类型、特征选择、模型选择和模型验证等相关因素。本文从这些角度出发,提出了一种基于机器学习的抗癌药物反应预测方法,它集成了机器学习和统计学习几种常用的计算工具,使用基于细胞系数据的模型预测肿瘤药物反应情况。本文的数据来源于英国惠康桑格研究院发布的癌症体细胞突变目录数据库和肿瘤药物敏感性基因组学数据库,共包含上千株细胞系在药物干预前的基因突变、拷贝数畸变、基因表达三大组学特征以及这些细胞系对196种抗肿瘤药物的响应数据。模型主要由特征提取模块和分类预测模块两部分构成。特征提取模块的作用是将输入的高维基因组特征降维,首先应用关联规则挖掘算法为每一种抗肿瘤药物的敏感状态和耐药状态挑选出相关性强的基因状态数据,保留细胞系中这些基因的状态构成初始特征向量,并对初始特征向量进行累积池化处理,在进一步降低特征维度的同时增加模型的鲁棒性。分类预测模块的结构为三层前向型神经网络,因为每种药物-状态对的特征向量长度不同,所以为每种药物和每种状态构建一个分类器,共计构建了392个预测分类器。考虑到临床实践的时间效率问题,本文还提出了另外一种分类预测模块设计方案,它将K-means聚类算法和径向基函数应用在极速学习机网络中,预测细胞系样本对药物的敏感性和耐药性。本文使用R语言实现了关联规则挖掘算法,使用Python语言以及Keras框架实现了整个预测模型。实验结果表明,在196种抗肿瘤药物中,模型在测试集中的平均AUC值为0.810,平均预测准确率为0.776,高于使用相似方法和数据集的其他论文以及目前资深医生的诊断水平。基于改进的极速学习机网络的药物反应预测性能优于几种常见的机器学习算法,训练和验证速度快。本文还设计和开发了抗癌药物反应预测系统。上述结果表明本文提出的模型可以有效捕捉患者的基因组特征,同时生成准确的药物反应预测结果,有望在个体化医疗中发挥作用。
其他文献
情感教育是新课标三维目标的重要组成部分,怎样在日常的数学教学中渗透情感教育,是每一位教师都面临的问题。数学知识由于其抽象的特点,往往给学生带来枯燥乏味的感觉,加上高
采用XPS技术研究了Fe/SiO2核壳复合粒子的表面化学成分和电子结构。结果表明,表面化学成分仅由Si和O元素组成,表面Si存在4种电子结构,表面O存在5种电子结构。表面硅4种电子结构的
普通高中新课程改革已经在我省实施一轮结束。通过语文教学实践,获得许多感受和思考,在此与同行交流分享。一、把握好对话式教学中的“度”从个人素养上讲,每名语文教师都有
相干、非相干和陷阱等诱饵方式已被提出并应用于工程实践.本文基于反辐射导弹(ARM)导引头(PRS)缺陷的分析,提出了干扰式诱饵欺骗反辐射导弹方法,通过理论分析证明了该方法的
建立以 5 Br PADCAP为显色剂 ,单一试剂自动化分析法测定血清锌的新方法。该法线性范围 0~ 80 μmol/L ,平均回收率为 10 0 2 % ,批内变异系数 (CV)和批间变异系数分别为 0
该文通过实验方法研究和分析了汉字语音共振峰的特点,发现可跟踪并找到各个共振峰,结合汉字发音所具有的一般规律,提出了一种基于跟踪共振峰的语音增强算法。该算法能够有效地识
随着我国经济的区域化、一体化发展步伐的加快,物流业同样面临着一体化的问题。实现区域物流一体化,将大大加快区域经济整合与协调发展,促进区域经济的一体化,提高区域的整体竞争
本文主要从理论上,对虚拟科研组织在增强科技市场的敏捷反应能力、降低组织管理费用及运行成本、加速科学技术创新、促进技术向经济的转化、优化科技资源市场配置、提高科技
本文主要阐述的是动态规划算法的基本思想,例举了一典型实例──"最大价值路线"进行分析讲解,结合具体的程序设计代码,让读者充分了解什么是动态规划算法。
本文首先叙述了汽车电器实训台架的现状,分析了"模块化"、"即插式"汽车电器多功能实训台架的优点和推广价值,其次详细阐述了该实训台架的设计过程。最后讲解了汽车电器多功能实训