论文部分内容阅读
目的:随着生物技术的进步,我们可以很容易地获取大量的基因组数据。基于大量基因组数据的预测和分类为疾病的早期筛检提供了一种代价小且效率高的方法。然而,基因和某个性状之间的关系可能是非常复杂的,从基因到一个复杂性状的转化,不是多个独立基因的简单作用,而是涉及到很多基因之间复杂的交互作用,也就是说,这种转化可以被看做是一个非线性映射问题。这些复杂的关系可能是由多种效应产生的,比如,一个基因的自我调控或者基因之间的协作和竞争。由于这种复杂关系的存在,发展一个能够捕捉这种非线性关系的功能强大而且高效的统计模型就显的十分必要了。在我们的研究中,我们着眼于发展一个基于核偏最小二乘法的模型,该模型期望拥有更好的学习能力和泛化能力,并能够整合多个组学数据源,获得更好的预测或分类效果。方法:我们首先建立一个经典的核偏最小二乘模型,然后通过一个多个核函数的凸组合计算出一个新的复合核函数,最后我们用新的复合核函数代替之前经典核偏最小二乘模型中的核函数以生成改进的核偏最小二乘模型。在改进的核偏最小二乘模型中的所有参数均通过遗传算法进行优化。通过构建适合的复合核函数,我们的方法能够解决并改善单个基因组数据源以及多个基因组数据源的预测和分类问题。我们提出的基于遗传算法的复合核偏最小二乘模型的性能将通过相应的模拟研究和真实数据研究来展示。结果:大量的模拟研究和真实数据研究表明我们提出的基于遗传算法的复合核偏最小二乘模型在使用一个基因组数据源进行数量性状预测时,能够给出最大的21FQ和最小的RMSEP;当使用基于三个基因组数据源(即micro RNA,m RNA和拷贝数变异)的核偏最小二乘核融合模型对两种乳腺癌病人(三阴性和非三阴性)进行分类时,我们的核融合模型获得了最大约登指数、最小分类错误率和马修斯相关系数(MCC)。结论:我们提出了一个基于核偏最小二乘预测框架的复合核方法,该复合核具有好的学习能力和泛化能力;我们提出了一个基于核偏最小二乘分类框架的复合核方法,该复合核能够有效地融合多个基因组以及其它组学数据源,从而获得改进的性能;遗传算法能够很好地解决核参数和核权重的优化问题。