论文部分内容阅读
目的:随着现代基因组学、蛋白组学和代谢组学等研究兴起,产生了大量的高维组学数据。对高维组学数据的分析,其重要任务是筛选具有生物学意义的特征标志物及对样品进行分类,通过比较正常和疾病状态下基因、蛋白及代谢物表达的差异,为研究疾病的发生机理、疾病的早期诊断及治疗提供参考依据;对于这种高维数据分析的焦点是相对于给定的样品数目,需要分析的特征变量数目巨大,用传统的统计方法对差异表达的标志物进行鉴别时会产生大量的假阳性结果。本项研究针对这一问题,采用目前公认的较好的boosting方法进行高维组学数据分析的研究,进行判别分类及特征提取。
根据boosting方法原理、特点及有效性;研究boosting算法在高维组学数据分类及特征标志物筛选中的性能,并通过模拟实验和实例分析加以验证;boosting方法与课题组前期研究的随机森林及支持向量机方法相比较的优缺点;不同类型的boosting算法之间的比较;Boosting分析方法的软件实现。
方法:根据医学高维组学数据生物信息的特点,采用统计学和计算机相结合的技术,利用公开的生物信息数据库及课题组的实验数据,选择具有典型意义的样本数据,通过对实际样本的分析,提取数据的分布及相关特征,建立相应的统计分析模型;同时利用R和SAS两种语言,采用计算机模拟的方法,针对不同类型的数据进行分析和评价,探索高维组学数据分析的新方法。
结果:
1.与其他算法不同的是,boosting算法能提升任意算法的精度和性能,其适用性更广。Boosting能够在同一训练集中进行多次分类,在每次分类结束时,给出基础算法的权重,并在分类过程中不断更新每个训练样本的权重,以实现错误率的最小化,最终由多个基础算法的加权和给出最终的分类结果。此外,应用boosting算法建模时需要设置的参数很少,即基础算法与迭代次数,改变这些参数可以在确定数据集中得到最优的性能。
2.模拟实验证实了boosting组合分类模型判别分类的有效性,能够达到甚至超过现有的方法的预测效果,虽然boosting模型判别能力会随无差异变量数目的增加而下降,但其抗噪声能力还是很强的,下降的程度与单变量的分类能力有关。
3.在利用真实的基因数据(结肠癌、白血病、乳腺癌)和代谢组数据(卵巢癌)建立分类模型时,也均取得了较为理想的判别效果,此外结果还显示只要存在差异大的基因或者组分,例如白血病基因表达数据,无论有多少无差异的基因或组分存在,都不会影响其建模和判别性能。
4.对于变量筛选,模拟实验结果表明:在设置很少几个差异变量的情况下(p=5),在两类区分度较低时(θ=0.85),筛选变量的结果不够理想;但在区分度较高的情况下,正确地将差异变量纳入模型的百分率明显提高,而且绝大多数选入模型的变量其重要性的排序都较为靠前,结果非常理想。
5.本研究对四个实际数据,即结肠癌、白血病、乳腺癌和皮肤癌基因表达数据进行了分析,并从生物学角度对筛选出的基因进行了解释,结果提示利用boosting组合判别模型的筛选变量法可以有效的选入与疾病有关的基因。研究发现,筛选出的基因有一部分与该疾病有着直接关系,为进一步的基因功能学研究提供了重要的线索。
6.在对于boosting不同算法的选择上,模拟实验结果显示:Discrete和logit算法在噪声数目较少的时候表现最为优异,但随着噪声数目的增加判别效果下降。另外的两种算法(gentel和real)并未表现出明显的劣势。真实基因表达数据的分析结果与模拟实验结果基本一致。
结论:基于boosting构造的模型,可以有效地应用于医学高维组学数据的判别分类和特征筛选研究,对于具有复杂结构高维组学数据,boosting模型及方法有其明显的自身特点,适用性更强,是一种值得个推荐和进一步研究的模型。