论文部分内容阅读
随着基因组学、表观遗传组学、转录组学等多组学研究的兴起,产生了大量的高维数据,这类资料的显著特点是超高维、稀疏性,变量数远大于样本数。虽然变量很多,但是绝大部分都是无用的噪声变量,因此选择合适的分析策略或统计模型,使真正有关联的变量区别于噪声变量而被筛选出来,显得至关重要。随机森林是由若干个决策树(decision tree)组成,每个决策树为一个分类器,可以得到一个预测结果。所有的预测结果进行组合得到最终的决策从而获得更好的分类和回归性能。相较于其他的集成学习方法如bagging、boosting等,随机森林因为在算法上考虑了样本的随机抽取、特征的随机抽取,以及交叉验证,从而提高了运算速度,并大大减少了模型过拟合的可能性。随机森林已经广泛使用于各大组学数据的分析中,受到了应用者的青睐。但是当存在混杂因素时,仅将混杂因素作为协变量放入随机森林的做法并不适用。本研究将探讨在运用随机森林模型探索高维组学数据时,如何同时对混杂因素进行控制。本研究采用了基于随机森林的方法有四种,分别是:随机森林(random Forest,RF)、ranger(RANdom forest GEneRator)、ranger(weighted)、基于广义线性模型的残差进行随机森林分析(本文用“残差法”或“residual+RF”表示)。本研究的目的就是利用模拟实验,比较这四种基于随机森林的相关模型,探讨在混杂存在时,能否有控制混杂,比较不同方法对混杂的控制效果。模拟实验在不同参数设置条件下,分别比较这四种模型,关联变量(causal)在随机森林得到的变量重要性评分(variable importance score,VIS)排序中的位于第一位的比例。模拟结果显示,在三种参数(优势比OR、变量数P、样本量N)中,当P和其他任一个参数固定,另外一个参数数值越大,四种模型下关联变量排在第一位的比例就越大,即越容易筛选出关联变量。当P、N、OR值不变时,四种模型下的关联变量位于VIS排序中第一位的比例随着关联变量与混杂的相关性(corr1)的增大而减少。但是不管参数如何变化,四种方法中,都是残差法效果最好,ranger(weighted)其次,RF和ranger并无太大差别。且残差法和ranger(weighted)比RF和ranger控制了混杂因素,筛选关联变量的效果更好。本研究还进行两个不同组学数据的实例分析,数据分别来源于非小细胞肺癌GWAS(Genome-wide association study)和非小细胞肺癌EWAS(Epigenome-wide association study)。对于肺癌GWAS数据的分析,本研究得到了与模拟实验相同的结论。将ranger(weighted)法应用于肺癌EWAS数据的分析,发现KDM基因中的体细胞DNA甲基化与早期非小细胞肺癌患者的生存之间存在关联,并指出了潜在的表观遗传治疗的靶点。证明了本研究方法的实用性。模拟实验和实例分析均表明,残差法和ranger(weighted)可以控制混杂,提高随机森林模型筛选出关联变量的能力。