基于boosting的高维组学数据分析方法的应用研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:llw88636108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:随着现代基因组学、蛋白组学和代谢组学等研究兴起,产生了大量的高维组学数据。对高维组学数据的分析,其重要任务是筛选具有生物学意义的特征标志物及对样品进行分类,通过比较正常和疾病状态下基因、蛋白及代谢物表达的差异,为研究疾病的发生机理、疾病的早期诊断及治疗提供参考依据;对于这种高维数据分析的焦点是相对于给定的样品数目,需要分析的特征变量数目巨大,用传统的统计方法对差异表达的标志物进行鉴别时会产生大量的假阳性结果。本项研究针对这一问题,采用目前公认的较好的boosting方法进行高维组学数据分析的研究,进行判别分类及特征提取。   根据boosting方法原理、特点及有效性;研究boosting算法在高维组学数据分类及特征标志物筛选中的性能,并通过模拟实验和实例分析加以验证;boosting方法与课题组前期研究的随机森林及支持向量机方法相比较的优缺点;不同类型的boosting算法之间的比较;Boosting分析方法的软件实现。   方法:根据医学高维组学数据生物信息的特点,采用统计学和计算机相结合的技术,利用公开的生物信息数据库及课题组的实验数据,选择具有典型意义的样本数据,通过对实际样本的分析,提取数据的分布及相关特征,建立相应的统计分析模型;同时利用R和SAS两种语言,采用计算机模拟的方法,针对不同类型的数据进行分析和评价,探索高维组学数据分析的新方法。   结果:   1.与其他算法不同的是,boosting算法能提升任意算法的精度和性能,其适用性更广。Boosting能够在同一训练集中进行多次分类,在每次分类结束时,给出基础算法的权重,并在分类过程中不断更新每个训练样本的权重,以实现错误率的最小化,最终由多个基础算法的加权和给出最终的分类结果。此外,应用boosting算法建模时需要设置的参数很少,即基础算法与迭代次数,改变这些参数可以在确定数据集中得到最优的性能。   2.模拟实验证实了boosting组合分类模型判别分类的有效性,能够达到甚至超过现有的方法的预测效果,虽然boosting模型判别能力会随无差异变量数目的增加而下降,但其抗噪声能力还是很强的,下降的程度与单变量的分类能力有关。   3.在利用真实的基因数据(结肠癌、白血病、乳腺癌)和代谢组数据(卵巢癌)建立分类模型时,也均取得了较为理想的判别效果,此外结果还显示只要存在差异大的基因或者组分,例如白血病基因表达数据,无论有多少无差异的基因或组分存在,都不会影响其建模和判别性能。   4.对于变量筛选,模拟实验结果表明:在设置很少几个差异变量的情况下(p=5),在两类区分度较低时(θ=0.85),筛选变量的结果不够理想;但在区分度较高的情况下,正确地将差异变量纳入模型的百分率明显提高,而且绝大多数选入模型的变量其重要性的排序都较为靠前,结果非常理想。   5.本研究对四个实际数据,即结肠癌、白血病、乳腺癌和皮肤癌基因表达数据进行了分析,并从生物学角度对筛选出的基因进行了解释,结果提示利用boosting组合判别模型的筛选变量法可以有效的选入与疾病有关的基因。研究发现,筛选出的基因有一部分与该疾病有着直接关系,为进一步的基因功能学研究提供了重要的线索。   6.在对于boosting不同算法的选择上,模拟实验结果显示:Discrete和logit算法在噪声数目较少的时候表现最为优异,但随着噪声数目的增加判别效果下降。另外的两种算法(gentel和real)并未表现出明显的劣势。真实基因表达数据的分析结果与模拟实验结果基本一致。   结论:基于boosting构造的模型,可以有效地应用于医学高维组学数据的判别分类和特征筛选研究,对于具有复杂结构高维组学数据,boosting模型及方法有其明显的自身特点,适用性更强,是一种值得个推荐和进一步研究的模型。
其他文献
摘要:本文从以下四方面浅谈语文教师如何练就一身过硬的基本功:语文教师应字句珠玑,引领学生享受语文之美;用一口流利、純正的普通话示范朗读是语文教师不可缺少的基本功;教师的语言要有艺术性;笔走游龙,勤写苦练成华章。  关键词:语文 基本功 引领 示范 艺术性  中国分类号:G633.3  新课改下的语文教师正面临着一场深刻的“自我革命”,实施新课程,教师要时时“充电”。俗话说:打铁要靠本事硬。要真正提
近年来,随着中国电视事业的高速发展,逐渐出现了近于直播的民生新闻电视栏目,如《南京零距离》、《直播南京》、《第一时间》等。民生新闻这一新传播理念的出现,给中国电视
【摘要】圆锥曲线中的“弦问题”是高考的热点问题,在历年的高考中,几乎都有所涉及.笔者在长期的教学中发现,学生对这部分内容感到既熟悉又陌生,熟悉的是套路性的东西——联立消元,构造一元二次方程,由韦达定理求解,而陌生的是,很多学生面对复杂的运算往往感到力不从心.如何处理这一矛盾,便成了困扰我们教学的一大难题,同时成了学生得高分的一大障碍,笔者在教学中认真研究后发现,对于圆锥曲线的弦问题,可以用弦的中点
摘要:随着我国课程的不断改革,高中地理教材也有了很大的改变,其不管在内容还是数量上都有了很大的变动。地理教育的重要组成部分便是地理教材,其是教学过程中非常重要资源,虽然新教材与以往教材相比有了很大的改进,但是目前地理教材存在内容多、难度大等问题,这对于地理教学以及学生学习效率都有很大的影响。本文对目前高中地理课标教材现状进行了分析,并且提出了减量降难的方法。  关键词:高中;地理课标教材;减量降难
导入是高中语文课堂教学的一个关键环节,导入艺术运用得好,会有一石激起千层浪的效应,巧妙的导入能迅速聚拢学生分散的思维,有效地吸引学生的注意力,极大地激发学生的学习兴趣,进而
研究目的   通过获得2007-2009年北京地区25岁以上急性冠心病事件死亡的相关信息,分析不同性别、年龄组、性别分年龄组、区县、职业、婚姻状况、院外死亡地点的现况,揭示
王璐诚生于景德镇,职业画家,高级工艺美术师,景德镇市为民瓷厂艺霖轩主任画师,景德镇市青年美术家协会会员,景德镇书画院特聘高级画师,曾受王怀俊、张松茂、徐 Wang Lucheng
目的:本研究采用原代细胞培养方法,观察单壁碳纳米管(Single-WalledCarbon Nanotubes,SWCNT)对大鼠胎鼠肺泡Ⅱ型上皮细胞(alveolar epithelialtypeⅡ cell,AECⅡ)的细胞毒性作用,
高中数学概念的学习,对学好数学起着至关重要的作用,本文通过具体的例子来说明概念的重要性,并指出老师在教授概念的过程中的一些注意事项.