论文部分内容阅读
人类基因组计划完成之后,生物学领域中发展起来的各种组学技术把生命科学带进了系统生物学时代,此时,基因组学、转录组学、蛋白质组学、代谢组学等数据呈指数级增长。在这种高通量数据背景下,为了理解目前未知的生物学机制并且获得生物各功能层之间的相互作用,我们需要开发融合各种生物组学数据并且同时给出生物学解释的方法,从而可以描述和预测相关生命过程的生物学功能、生物体表型和行为。各种类型的组学数据由许多变量表征并且一般没有足够多的样本,因此数据的属性变量之间容易存在线性相关现象。我们通常采用基于典型相关分析或偏最小二乘回归(PLS)的方法融合组学数据,因为它们的计算性能比较好。目前流行的稀疏偏最小二乘回归(sPLS)方法在PLS中内置了变量选择过程,并且在融合两组组学数据集和对结果的生物学解释方面有良好的性能,本文对sPLS进行研究并尝试着对其改进。sPLS通过偏最小二乘回归和奇异值分解克服统计数学方面的束缚,并且通过lasso变量选择方法实现方法的稀疏性,在降低试验成本的情况下促进对结果的生物学解释。PLS方法采用主成分分析思想对数据结构进行降维处理并克服了多重相关性的危害,运用典型相关分析思路分析两组变量之间的相关性,它重新筛选数据系统的重要信息并选取对数据系统具有最佳解释能力的几个主成分进行回归建模。lasso(最小绝对收缩和变量选择操作)惩罚方法在回归模型中将影响较弱的变量的系数设置为零,只保留有主要影响的变量的系数,从而在估计回归系数的同时完成变量选择,实现组学数据融合的稀疏性解决方案。通过对lasso方法的研究发现,lasso至多只能选择和样本数量一样数量的变量并且如果需要选出一组相关程度比较高的变量,lasso倾向于只选择其中一个变量并且不在乎选择了哪个变量。因此,对样本数远少于属性变量数量的组学数据进行融合分析时,lasso不是理想的方法。本文中,我们尝试着在sPLS方法中用弹性网络惩罚改进变量选择过程。弹性网络惩罚是一种正规化变量选择方法并且不仅可以成组地选出密切相关的目标预测因子,还能够在全体变量中选择目标变量。弹性网络惩罚通过处理自变量数据集的增广矩阵而将弹性网络问题转化为等价的lasso I司题,得到弹性网络惩罚的一个软门限函数,从而在数据集的权值向量上施加软门限函数可以进行变量选择操作。本文在鼠类肝毒性研究的基因表达数据和肝功能临床数据上实施PLS方法、sPLS方法和改进的sPLS方法,这三个方法都在总体因变量和每个因变量上对自变量数据集做回归分析,本文通过交叉验证方法比较它们的性能。实验结果表明,在PLS方法中引入变量选择环节可以得到更稳定高效的预测效率,并且基于弹性网络惩罚的sPLS方法比原来的方法在选出目标变量方面更有效率。本文只是对生物组学数据融合方法做了基本的实验研究,所研究的sPLS为融合两块组学数据集提供一个非常有用的工具,并且可以对结果提供良好的生物学解释。对于以后的研究方向,可以将sPLS和其他门限规则一起应用,可以考虑sPLS的对称分析版本,还可以尝试使用其他惩罚函数或者改进现有的惩罚函数,比如采用自适应弹性网络惩罚。然而,由于生物过程的复杂性、特殊性和数据的高通量性,sPLS方法尚需要在统计学和生物解释方面做进一步的理论和实践工作。