微阵列基因表达数据的选择及方法

来源 :现代交际 | 被引量 : 0次 | 上传用户:abc124333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]目前,基因芯片技术在基因组信息学研究中占据了领导地位。本文通过介绍DNA微阵列技术的数据分析意义,深入地阐述了分析基因表达数据目前面临的难题,并详细地介绍了现阶段的基因选择方法。
  [关键词]微阵列基因 表达数据 选择 方法
  [中图分类号]Q78 [文献标识码]A [文章编号]1009-5349(2015)08-0116-01
  在上个世纪八九十年代时,人们就已经开始研究实施伟
  大的人类基因组计划(Human genome project HGP)了,并到目前为止已经取得了非常大的成就。[1]人类基因组计划目前的首要任务就是对一些像酵母、细菌、果蝇、线虫等模式生物体的基因组和人类的基因组进行测序、作图和识别基因,到现在为止人类已经测定了好几十种高等动物植物和微生物的全部基因组序列。所以到目前为止人类基因组计划已经获得了巨多的且不连续基因数据信息,并且这些数据信息被广泛地存储在种类繁多且性质不同的基因数据库中,而且Internet网络又把这些数据信息连接起来形成了一个特别复杂并且规模特别大生物基因信息资源仓库。这个生物信息量巨大的数据库暗含了许多关于人类进化和生长的重要信息以及关于医学和生理学的重要信息。如果人们能够破译这些信息数据,将对人类的发展产生巨大的作用,具有深远的意义。所以如何通过这些数据库中存储的基因数据信息发现对人类发展有用的信息,是目前研究者们的首要任务。[2][3]
  一、关键基因的选择
  基因选择就是从最初的基因表达数据中选出与疾病分类相关性最大的那些基因,并把选出来的基因当做诊断基因。但是,需要从原始基因表达数据中选择哪些基因,多少基因对分类与诊断疾病才最有效?这个问题属于非常复杂的NP完全问题。解决这个问题的一种方法是通过穷举法寻找最优解,由于具有海量的特征(基因),利用穷举法进行特征选择是没有可行性的。所以,只能通过寻找次优解的具有可行性的方法来解决这个NP完全问题。
  基因选择问题是在样本数特别少且维数特别高的特征空间中进行选择特征的问题,具有一些普通的特征选择所没有的特点:(1)超小样本高维特征空间。基因表达数据的基因空间具有上万维的维數,却只有一百多个样本数,与一般的特征空间维数小于样本数的特征选择问题不一样。(2)基因选择就是要从一万多个基因中选出不到一百个关键基因,而普通的特征选择问题是从不到一百个特征中选出不到十个的特征。基因选择中所需选择的基因数量远远小于候选基因数量,但在普通的特征选择中所选特征的数量与候选特征数量相差无几。(3)基因选择与普通特征选择相比要求分类器在所选基因子集上的分类具有更高的推广能力。确保选出的基因子集对诊断疾病的可靠性,从而避免疾病误诊产生的沉重代价。
  二、关键基因选择的方法
  (一)基于过滤法(filter)的基因选择方法
  过滤法主要研究在不同类型样本中基因表达的差异,该方法属于单基因选择法并与最后用于验证分类的方法相互独立。信噪比(signal-to-noise ratio)准则是由Golub[4]等人在1999年分析研究白血病微阵列数据时提出的,目前为止,该方法仍被广泛应用于各个领域。之后,科研人员又把统计概率的方法应用于识别差异基因。计算的基因表达水平的方差和均值通常都不可靠也不准确,因为非参数统计量一般对假设条件的要求都不高,所以基因选择准则不仅采用参数统计量,还提出了许多非参数统计的方法并得到了广泛应用。
  (二)基于封装法(wrapper)的基因选择方法
  封装法与过滤法不同,选择特征基因的算法是一个以归纳算法为主的缠绕器,既可以用归纳算法寻找特征基因,该算法本身又可以评价特征基因即为评价函数。封装法通过比较基因的不同分类贡献率来判定基因的重要性,所以该方法提供的分类精度与过滤法相比精度更高。因此,人们提出了很多基于不同学习方法的封装法用来选择癌症的关键基因。在基于封装法的基因选择方法中,成果最为显著的是,Guyon等人通过结合反复特征消除方法和支持向量机提出的SVM-RFE方法。[5]该方法在处理结肠癌和白血病数据时基因选择的效果比较好。然而,封装法的严重缺陷是在进行基因选择时要求反复对分类算法进行调用从而评估基因分类性能,所以该方法的计算量一般都很高。例如当通过人工神经网络分类器进行分类时,该封装法的可行性几乎为零。此外,利用封装法选出的基因特征对参与的分类算法的依赖性比较大,所以说通过不同的分类器选出的特征子集可能会不适应其他分类器。所以,在用封装法进行基因选择时还要考虑封装法对分类算法的鲁棒性。
  【参考文献】
  [1]Ennisi E P.The human genome.Sci,2001(29),1177-1980.
  [2]Pierre,Brunak(著),张东晖等(译).生物信息学(第2版)[M].北京:中信出版社,2003 .
  [3]陈润生.生物信息学[J].生物物理学报,1999(01):1-268.
  [4]Golub T R,Slonim D K,amayo P T,Huard C,Gaasenbeek M,Mesirov J P,Coller H,Loh M L,and Downing J R et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring.Sci.1999,286:531-537.
  [5]Brazma A,Minireview V L.Gene expression data analysis.Federation of European Biochemical societies.2000,480:17-24.
  责任编辑:张丽
其他文献
结合信息综合课程设计的教学经验,从设计合适题目、充分发挥教师作用、充分发挥学生主观能动性、优化评价机制四方面提出综合课程设计开设的建议,以促进综合课程设计的课程建
摘 要 随着我国高等教育事业的不断加速发展,影响高校安全稳定的要素愈来愈复杂,校园安全稳定的维护任务也愈来愈艰巨。维护大学生人身财产安全,事关大学生健康的成长,事关整个社会的安全、稳定、平安。本文介绍了高职院校安全管理中存在的安全教育不到位、大学生安全意识淡薄、安保制度不健全、校园周边环境复杂等一些问题,并从内部和外部两个方面作了原因分析。  关键词 高职院校 大学生 安全管理  作者简介:卢之兵
本文以一台低损耗变压器为例,简单介绍了低损耗变压器的分析思路和设计方法.
网络服务业的速度发展给人们的生活带来巨大的改变,大家在网络上享受各种服务的同时,也会遭遇侵权行为。如何让权利人能够及时制止侵权行为,维护自身合法权益就成为各界关注
[摘要]作为“经济宪法”的反垄断法,终于开始施行。而作为反垄断法中的宽恕制度更是具有及其重要的现实意义。它能够显著地提高反垄断执法机构的执法效率,增强和扩大了反垄断法的威慑效应,因此对反垄断执法的重要意义不言而喻。同时,我国现行反垄断法中的宽恕制度,过于笼统和限于原则性的桎楛,不具有现实的可行性。在此,浅谈一下对宽恕制度的认识,希望对以后宽恕制度的具体细则的制定和施行,具有一定的作用和借鉴意义。 
摘 要 儒家文化与伊斯兰文化在思想意识领域整合的内容主要表现在忠孝观、教育观、和谐观等各个方面。两种文化在倡导良好的家庭伦理规范,科学文化教育积淀整合,营造和谐安定社会环境与风气,维护祖国统一与民族团结,加强各民族接触交往与良性互动,促进新疆发展战略机遇、实现共荣等诸方面体现出良好的整合价值。本文旨在借此为和谐民族关系,文化的理解与包容提供可靠的理论依据和现实动力。  关键词 儒家文化 伊斯兰文化
如何才能让大学生主动、积极地学习,发自内心地去探究知识,而不只是被动地接受知识.华南师范大学的郭思乐教授提出了生本教育理念,即以学生为本,把学生作为学习的主体.本文针
摘 要 “马克思主义基本原理概论”课教学活动是教师和学生富有个性化的创造过程。在此过程中,良性和谐课堂氛围的创设是讲好每一堂课的基本条件。本文认为培育营造“原理”课良好的课堂教学氛围需要教师深入探索和遵循教学规律,在授课过程中自觉呈现出积极健康正能量的情绪状态;需要教师全面把握教学过程,切实贯彻学生主体性原则,努力实现教学要素、教学环节、教学节奏等教学系统方面的和谐优化。  关键词 马克思主义基本
随着我国输电线路直升机作业项目广泛开展,利用直升机机载光电吊舱对输电线路进行检查作业已成为输电电路运维的重要手段,由于机载光电吊舱属于精密的光电设备,现有的安装方
本文针对小型河流污染的治理问题进行研究,由于水污染会对人体健康造成很大损害,容易引起急性和慢性中毒还有致癌作用并容易发生以水为媒介的传染病以及其他间接影响,本文希