论文部分内容阅读
近年来,国际上相继启动了多个大型癌症基因组项目,如癌症细胞系百科全书(CCLE),癌症基因组项目(CGP)等,产生了大规模的药物基因组学数据,方便研究者采用计算的方法深度挖掘海量数据背后蕴藏的重要信息。本文利用癌症药物敏感性基因组学数据库(GDSC),基于经典的偏最小二乘法和非负矩阵分解算法,从高维基因表达数据和抗癌药物响应数据中识别出具有统计意义和生物意义的基因—药物共模块。从基因调控的角度帮助人们理解抗癌药物作用的分子机理,筛选潜在的药物靶标。偏最小二乘法因其简单易操作而备受研究者青睐。研究表明带有基因网络正则约束的稀疏偏最小二乘算法(SNPLS)可以有效地识别出基因—药物共模块,该算法只考虑了基因之间的相关性信息约束,未考虑药物之间的相关性信息约束。在此算法基础上,本文增加了药物关联网络信息,即将药物二维化学结构转化为数值序列,计算数值序列之间的Jaccard相关系数,构建药物关联网络,进而提出伴有基因和药物关联网络正则约束的稀疏偏最小二乘算法(SGDPLS),用其识别基因—药物共模块。结果显示:相较于SNPLS,由于药物关联网络信息的加入,SGDPLS算法所识别出的基因模块与药物模块之间的相关性更强,增强了共模块的生物可解释性。非负矩阵分解算法现已广泛应用于数据特征提取,其优点是在保留数据关键信息的同时,能够实现数据的有效降维。本文从GDSC数据库上下载了最新的基因表达数据和药物响应数据,通过对药物响应数据缺失值的填充,得到完整的药物响应矩阵,通过计算pearson相关系数,得到基因相似性矩阵、药物相似性矩阵和基因—药物相似性矩阵。借助联合非负矩阵分解算法(JNMF)得到基因和药物信息的分解因子,然后在联合非负矩阵分解的基础上,加入相似性矩阵之间的差异,将多个变量之间的相关性结合起来,提出了伴有相似性约束的稀疏联合非负矩阵分解算法(SSJNMF),用于识别基因—药物共模块,并与两种非负矩阵分解算法JNMF和NetNMF进行了比较。结果显示:SSJNMF算法识别出的基因—药物共模块不具有随机性,且具有更高的统计意义和生物可解释性。