基于偏最小二乘判别分析的遗传算法在基因组和代谢组学数据分析方法研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:langguoji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:近期生物学技术能够同时检测成千上万的生物分子,产生高通量的数据,如基因组学数据和代谢组学数据。这类数据一方面提供了极其丰富、详细的信息,另一方面这种高维、小样本数据给数据处理和统计分析带来了极大的困难。其主要问题是成千上万的预测变量不可能都与生物反应结果相关,而且很容易导致模型的过拟合。本项研究针对上述问题,采用偏最小二乘(partial least squares,PLS)和遗传算法(genetic algorithms,GA)进行高维数据分析,实现数据降维和生物标记物的筛选。   内容在介绍偏最小二乘方法的原理的基础上,通过模拟实验验证其适用性、特点和有效性;研究偏最小二乘方法在处理高维数据时的过拟合现象;研究核偏最小二乘(kernel partial least squares,KPLS)回归在处理非线性关系时的优势;提出基于偏最小二乘判别分析(partial least squares discriminant analysis,PLSDA)的遗传算法,并验证其在高维数据特征筛选中的性能。   方法:使用SAS语言进行偏最小二乘分析,通过模拟实验验证偏最小二乘方法在高维条件下的过拟合现象。使用MATLAB语言实现核偏最小二乘回归分析,通过模拟实验研究该方法的非线性特性。利用R语言将偏最小二乘判别分析和遗传算法结合起来,并通过模拟数据和真实的基因组、代谢组数据评价基于偏最小二乘判别分析的遗传算法(GA-PLSDA)的特征筛选能力。   结果:   1.PLS能够提取高维数据中的相关信息,并具有较好的过滤无关信息的能力,但数量巨大的无差异变量仍可导致其发生过拟合。模拟实验显示随着数据集中无差异变量数量的增加,PLSDA和SVM在测试集中预测的准确率均下降,但无差异变量对PLSDA的影响小于SVM。   2.当存在大量无关信息时,不论分类标签如何PLS得分图均能将各类别分开,所以在分析高维数据时PLS得分图不能代表各类别之间真实的关系,推断组间差异存在假阳性风险。在不包含或仅包含少量无关信息的情况下,PLS类似非监督学习方法,此时PLS得分图能够反应数据模式。   3.PLS通过在自变量中提取与因变量相关的信息成分来解释因变量,当数据维度较高时,由于存在过拟合,噪声变量的信息也可能被提取并用于对因变量的解释。所以,PLS成分所解释的因变量变异百分比有可能是虚假的,不能用其来确定PLS成分个数。   4.KPLS能够较好地处理非线性问题,该方法通过核函数将原始空间的变量映射到高维特征空间,并在高维空间实现线性PLS来解决非线性问题。KPLS提取的成分在趋势上能够近似于真实的曲线关系,它的预测性能远好于PLS。   5.提出了基于偏最小二乘判别分析的遗传算法,并通过对模拟数据、基因组和代谢组学数据的分析,显示了GA-PLSDA较强的优化搜索能力。相对于常用的VIP指标,GA-PLSDA算法能够筛选出对分类目标更具有代表性的解释变量,并且考虑到了变量之间复杂的交互作用。   结论:降维在高维数据的分析研究中具有重要的意义,此过程可以明显降低模型复杂性并提高分类器的预测能力,还可以用来搜索潜在的生物标记物。受无关变量的影响,PLS在分析此类数据时容易发生过拟合,从而产生假阳性结果并增加生物标记物的假发现率。本研究提出了基于偏最小二乘判别分析和遗传算法的特征筛选方法,该方法能够实现全局搜索并考虑到变量之间复杂的交互作用,且明显优于PLS的VIP指标特征筛选。
其他文献
摘要:小学生数学计算教学不要拘泥于一种思路、一种方法、一种模式,应倡导借鉴其他国家的基础教学,应注重本体教学、方法教学和规律教学,已达到真正意义上的课程改革。  关键词:小学生数学计算教学、方法教学、规律教学  中图分类号: G623.5  最近自己拜读了好多同仁就小学数学教学方面如何提高小学生计算能力的方法、措施,读了之后除了对这些同仁的敬业精神感到敬畏之外,不免对这种教学现状产生许多疑惑。为什
目的:采用传统的检测方法和基于UPLC-MS技术的代谢组学方法综合评价3-氯丙醇亚慢性染毒对大鼠机体的影响,并对比两种方法的敏感性,利用代谢组学技术研究染毒大鼠尿液中的代谢产
摘要:随着教育改革的不断深入,教师不仅仅关注学生的学习状况,学生的心理状况也曾为教师关注的焦点。对中学生的心理关注不够,就会对学生的成才之路造成不良影响,因此,必须洞悉中学生的心理。本文分析了初中生的心理特征,并探讨了洞悉中学生心理的策略。  关键词:中学生;心理;素质;辅导  中国分类号:G444  新时期中学生心理健康的现状:现在的中学生基本上都是独生子女,子女的升学、分数成为父母心理平衡的补
目的:腺病毒(adenovirus)是一种无包膜双链DNA病毒,分为7个组共55个血清型。该病毒可感染多种器官,从而引起多种疾病。国内外经常有腺病毒感染爆发流行的报道。目前,尚无有效的腺
目的:了解高危妊娠孕产妇孕期和产后焦虑、抑郁的状况,及孕产妇孕期和产后焦虑、抑郁情绪对子代气质发育的影响。  方法:搜集2010年9月至2011年6月期间于哈尔滨医科大学附属第
摘要:在初中语文教学中,教师更注重对学生语文知识的培养,而忽视了学生语文素质的培养。语文素质及其命题的提出可以启发我们以课程论的眼光重新审视语文课程的价值和功能,调整我们的语文教学策略。从长远看,它有可能是语文课程改革的理论支架之一。本文将从语文素质的内涵与构成入手,对如何培养初中学生语文素质进行探究。  关键词:初中生;语文素质;内涵与构成;培养  中国分类号:G633.3  引言:  当前,初
全球化通常被人们称颂为人类自由的进步,因为在全球化社会里,个人能够更自由地根据自己的选择去生活。全球化的批评者们则认为,全球化意味着要强加给人们一系列共同的全球性
【中图分类号】G633.3  新课程高中语文必修共5本教程,到高二阶段要进入选修课的学习,选修课程五个系列共15本,一般要选4个专题,课本就变成9本,比原来高中语文教材(共6册)多出3本,这样繁重的教学内容和任务就摆在了我们一线老师的面前,如何认识选修课,怎样根据高考要求,结合地方实际开设选修课,理清选修课与必修课的关系,如何处理教材和选择课堂教学方法、组织课堂课外教学就显得尤为重要,这些都是摆在
【分类号】G633.6  摘要:职高数学教学必须抓好与初中知识的衔接。在教学中首先要做好思想教育,消除他们的自卑心;还要注重导入教学,组织学生搞好初中复习工作,指导学生学习方法等。只有做好这个衔接点,才能顺利完成从初中到职高的过渡。  中等职业教育是以就业为导向、以能力为本位组织实施,这就意味着他们经过三年的中职教育,将由一个学生转变成一个具有综合职业能力的劳动者。但在实际教学中,学生生源基础差,
中国分类号:G633.6  中考数学复习时间短任务重,如何在有效的时间内搞好初中阶段所有数学课程的复习,是值得我们所有数学老师思考的问题。仔细品味近几年中考试题,了解中考命题动向,研究中考复习策略可以帮助我们指引复习课方向,提高复课效益。下面我就对近几年“空间与图形”领域考点分析如下:  (-)相交线与平行线  “相交线与平行线”主要借助角来研究平面内两条直线之间位置关系.“两条直线的位置关系与相