抗癌药物反应预测模型中的特征选择算法研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:zjzzhength
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量临床数据表明,患有同种癌症的不同患者,由于病人基因的特异性,对同一种治疗手段或药物往往有不同的反应。因此考虑基因特异性影响的靶向药物治疗已成为一种新兴的癌症治疗手段。然而病人体内是否存在抗癌药物的靶向基因对治疗效果影响较大,并且临床上抗癌药物的筛选研究存在多方面的挑战:实验环境要求高、等待反应时间长以及耗资巨大等。生物信息学的快速发展,将肿瘤细胞的基因组数据与药物相关数据整合成大型数据库,结合机器学习算法在细胞水平上对药物反应进行预测,为多种靶向抗癌药物的筛选提供有利依据。本文基于肿瘤细胞系的基因表达数据和抗癌药物反应值IC50,进行特征选择算法的研究,从而建立可靠准确的抗癌药物反应预测模型,主要包括以下三方面的工作:(1)对CCLE中的癌细胞系基因组数据与抗癌药物反应数据进行关联性分析,发现基因表达数据分布集中并且与IC50之间的相关性较为显著,更适用于预测药物反应。然后结合药物反应值计算相关系数的假设检验p值,按一定阈值选择的基因之间存在群组相关性,为后续工作中特征选择算法的研究以及回归模型的构建提供一定的依据。(2)针对基因特征数据的“维数灾难”问题,将处理高维特征的评价筛选与惩罚最小二乘系数收缩的方法结合使用。首先使用SIRS算法计算21种抗癌药物的IC50与各个基因表达的边际度量值进行初步筛选,并使用Pearson相关系数的假设检验进行对比;然后结合不同的惩罚最小二乘系数收缩的方法:LASSO、Elastic Net、SCAD,作精确特征选择,为建立可靠的回归预测模型提供有效的预测变量。(3)由于SIRS算法更适用一般模型,且Elastic Net兼顾LASSO与岭回归的变量选择与群组效应优势,研究中使用SIRS_Elastic Net方法进行特征选择,并与CCLE数据发布的论文中的Elastic Net算法模型进行对比,并且比较评价筛选与系数收缩的不同结合对模型结果的影响。然后对肺部癌细胞系单独进行预测分析,并且通过对预测基因变量的富集分析来了解基因的分子生物学功能信息以及在信号通路中的作用。本文基于CCLE数据对21种抗癌药物反应进行预测,侧重于回归模型中的特征选择算法研究,将评价筛选与系数收缩进行有效结合,采用SIRS_Elastic Net作特征选择,提高了模型预测的准确度,大多数药物得到的决定系数达到0.7以上,同时对肺癌进行单独研究的预测模型决定系数达到0.95左右。并且通过富集分析发现预测基因所对应的分子功能及通路信息与抗癌药物具有生物学相关性,这为后续研究药物的靶向基因提供了一定的基础,同时有助于新的抗癌药物的筛选研究。
其他文献
摘要:随着新课改理念的不断深入,对教师的要求越来越高,也不断促使笔者在教学中进行反思:怎样才能提高学生的学习兴趣?怎樣才能提高自己的教学效率?在教学中笔者尝试让学生从“学”的领域扩展到“教”的参与,同时让教师从“教”的领域扩展到“学”的参与,让学生主讲,让学生动手实验,思考交流,这种换位彻底消除了学生对教师的依赖心理,有效地解决了教师一头“热”,学生一头“冷”的难题。  关键词:换位;教学;能力 
目的测定老年高血压患者血小板聚集功能,并探讨该人群中阿司匹林抵抗(AR)的发生率和相关危险因素。方法采用比浊法,使用二磷酸腺苷(ADP)及花生四烯酸(AA)两种不同的诱导剂测定184例老
目的非小细胞肺癌(NSCLC)是恶性程度和死亡率极高的肿瘤,吉非替尼(gefitinib)是近年来研发的一种新的分子靶向药物,本文旨在系统评价吉非替尼治疗表皮生长因子受体(EGFR)基因突变的晚
能源变革的不断深化对电力系统,特别是中低压配电系统产生了重要的影响,各种分布式能源、储能设备以及柔性负荷大范围接入配电系统,使传统配电网正逐步发展成为主动配电网,对
脑机接口能够在没有人体自身运动系统和神经系统的帮助下,在大脑与其它机器之间建立一条通道,它在科研、医疗、军事以及娱乐方面都有着很广泛的应用。P300Speller是脑机接口
目前油气田开采过程中腐蚀状况日趋严重,亟需开发性价比高的抗腐蚀耐偏磨系列抽油杆。采用复合电镀法在抽油杆表面电镀钨合金,镀层呈非晶态纳米晶结构,在合金组分、电镀工艺
继承法的颁布实施迄今已有30余年,恰逢中国改革开放,此间中国社会发生了巨大的变化:社会财富激增;家庭结构改变;生育观念更新;法治现代化程度不断提高;《中华人民共和国物权
城市公交是城市居民的重要出行方式之一,在城市道路交通中占有举足轻重的地位。近年来,有关公交车换道行为的研究愈加深入,其中,公交车的进站换道行为因其常发性和强制性,容
世纪之交,随着IT技术的日益发展和向各个领域的广泛渗透,建立在知识和信息的生产、分配和应用之上的经济-知识经济,正以前所未有的速度向我们走来,有关知识经济和知识经济时
锂离子电池负极材料中,硅具有最高的理论储锂容量(4200 mAh/g),超过传统石墨(372 mAh/g)的10倍,是最有希望的高性能锂离子电池负极材料之一。然而硅在充放电过程中存在严重的