论文部分内容阅读
[摘要]目前,基因芯片技术在基因组信息学研究中占据了领导地位。本文通过介绍DNA微阵列技术的数据分析意义,深入地阐述了分析基因表达数据目前面临的难题,并详细地介绍了现阶段的基因选择方法。
[关键词]微阵列基因 表达数据 选择 方法
[中图分类号]Q78 [文献标识码]A [文章编号]1009-5349(2015)08-0116-01
在上个世纪八九十年代时,人们就已经开始研究实施伟
大的人类基因组计划(Human genome project HGP)了,并到目前为止已经取得了非常大的成就。[1]人类基因组计划目前的首要任务就是对一些像酵母、细菌、果蝇、线虫等模式生物体的基因组和人类的基因组进行测序、作图和识别基因,到现在为止人类已经测定了好几十种高等动物植物和微生物的全部基因组序列。所以到目前为止人类基因组计划已经获得了巨多的且不连续基因数据信息,并且这些数据信息被广泛地存储在种类繁多且性质不同的基因数据库中,而且Internet网络又把这些数据信息连接起来形成了一个特别复杂并且规模特别大生物基因信息资源仓库。这个生物信息量巨大的数据库暗含了许多关于人类进化和生长的重要信息以及关于医学和生理学的重要信息。如果人们能够破译这些信息数据,将对人类的发展产生巨大的作用,具有深远的意义。所以如何通过这些数据库中存储的基因数据信息发现对人类发展有用的信息,是目前研究者们的首要任务。[2][3]
一、关键基因的选择
基因选择就是从最初的基因表达数据中选出与疾病分类相关性最大的那些基因,并把选出来的基因当做诊断基因。但是,需要从原始基因表达数据中选择哪些基因,多少基因对分类与诊断疾病才最有效?这个问题属于非常复杂的NP完全问题。解决这个问题的一种方法是通过穷举法寻找最优解,由于具有海量的特征(基因),利用穷举法进行特征选择是没有可行性的。所以,只能通过寻找次优解的具有可行性的方法来解决这个NP完全问题。
基因选择问题是在样本数特别少且维数特别高的特征空间中进行选择特征的问题,具有一些普通的特征选择所没有的特点:(1)超小样本高维特征空间。基因表达数据的基因空间具有上万维的维數,却只有一百多个样本数,与一般的特征空间维数小于样本数的特征选择问题不一样。(2)基因选择就是要从一万多个基因中选出不到一百个关键基因,而普通的特征选择问题是从不到一百个特征中选出不到十个的特征。基因选择中所需选择的基因数量远远小于候选基因数量,但在普通的特征选择中所选特征的数量与候选特征数量相差无几。(3)基因选择与普通特征选择相比要求分类器在所选基因子集上的分类具有更高的推广能力。确保选出的基因子集对诊断疾病的可靠性,从而避免疾病误诊产生的沉重代价。
二、关键基因选择的方法
(一)基于过滤法(filter)的基因选择方法
过滤法主要研究在不同类型样本中基因表达的差异,该方法属于单基因选择法并与最后用于验证分类的方法相互独立。信噪比(signal-to-noise ratio)准则是由Golub[4]等人在1999年分析研究白血病微阵列数据时提出的,目前为止,该方法仍被广泛应用于各个领域。之后,科研人员又把统计概率的方法应用于识别差异基因。计算的基因表达水平的方差和均值通常都不可靠也不准确,因为非参数统计量一般对假设条件的要求都不高,所以基因选择准则不仅采用参数统计量,还提出了许多非参数统计的方法并得到了广泛应用。
(二)基于封装法(wrapper)的基因选择方法
封装法与过滤法不同,选择特征基因的算法是一个以归纳算法为主的缠绕器,既可以用归纳算法寻找特征基因,该算法本身又可以评价特征基因即为评价函数。封装法通过比较基因的不同分类贡献率来判定基因的重要性,所以该方法提供的分类精度与过滤法相比精度更高。因此,人们提出了很多基于不同学习方法的封装法用来选择癌症的关键基因。在基于封装法的基因选择方法中,成果最为显著的是,Guyon等人通过结合反复特征消除方法和支持向量机提出的SVM-RFE方法。[5]该方法在处理结肠癌和白血病数据时基因选择的效果比较好。然而,封装法的严重缺陷是在进行基因选择时要求反复对分类算法进行调用从而评估基因分类性能,所以该方法的计算量一般都很高。例如当通过人工神经网络分类器进行分类时,该封装法的可行性几乎为零。此外,利用封装法选出的基因特征对参与的分类算法的依赖性比较大,所以说通过不同的分类器选出的特征子集可能会不适应其他分类器。所以,在用封装法进行基因选择时还要考虑封装法对分类算法的鲁棒性。
【参考文献】
[1]Ennisi E P.The human genome.Sci,2001(29),1177-1980.
[2]Pierre,Brunak(著),张东晖等(译).生物信息学(第2版)[M].北京:中信出版社,2003 .
[3]陈润生.生物信息学[J].生物物理学报,1999(01):1-268.
[4]Golub T R,Slonim D K,amayo P T,Huard C,Gaasenbeek M,Mesirov J P,Coller H,Loh M L,and Downing J R et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring.Sci.1999,286:531-537.
[5]Brazma A,Minireview V L.Gene expression data analysis.Federation of European Biochemical societies.2000,480:17-24.
责任编辑:张丽
[关键词]微阵列基因 表达数据 选择 方法
[中图分类号]Q78 [文献标识码]A [文章编号]1009-5349(2015)08-0116-01
在上个世纪八九十年代时,人们就已经开始研究实施伟
大的人类基因组计划(Human genome project HGP)了,并到目前为止已经取得了非常大的成就。[1]人类基因组计划目前的首要任务就是对一些像酵母、细菌、果蝇、线虫等模式生物体的基因组和人类的基因组进行测序、作图和识别基因,到现在为止人类已经测定了好几十种高等动物植物和微生物的全部基因组序列。所以到目前为止人类基因组计划已经获得了巨多的且不连续基因数据信息,并且这些数据信息被广泛地存储在种类繁多且性质不同的基因数据库中,而且Internet网络又把这些数据信息连接起来形成了一个特别复杂并且规模特别大生物基因信息资源仓库。这个生物信息量巨大的数据库暗含了许多关于人类进化和生长的重要信息以及关于医学和生理学的重要信息。如果人们能够破译这些信息数据,将对人类的发展产生巨大的作用,具有深远的意义。所以如何通过这些数据库中存储的基因数据信息发现对人类发展有用的信息,是目前研究者们的首要任务。[2][3]
一、关键基因的选择
基因选择就是从最初的基因表达数据中选出与疾病分类相关性最大的那些基因,并把选出来的基因当做诊断基因。但是,需要从原始基因表达数据中选择哪些基因,多少基因对分类与诊断疾病才最有效?这个问题属于非常复杂的NP完全问题。解决这个问题的一种方法是通过穷举法寻找最优解,由于具有海量的特征(基因),利用穷举法进行特征选择是没有可行性的。所以,只能通过寻找次优解的具有可行性的方法来解决这个NP完全问题。
基因选择问题是在样本数特别少且维数特别高的特征空间中进行选择特征的问题,具有一些普通的特征选择所没有的特点:(1)超小样本高维特征空间。基因表达数据的基因空间具有上万维的维數,却只有一百多个样本数,与一般的特征空间维数小于样本数的特征选择问题不一样。(2)基因选择就是要从一万多个基因中选出不到一百个关键基因,而普通的特征选择问题是从不到一百个特征中选出不到十个的特征。基因选择中所需选择的基因数量远远小于候选基因数量,但在普通的特征选择中所选特征的数量与候选特征数量相差无几。(3)基因选择与普通特征选择相比要求分类器在所选基因子集上的分类具有更高的推广能力。确保选出的基因子集对诊断疾病的可靠性,从而避免疾病误诊产生的沉重代价。
二、关键基因选择的方法
(一)基于过滤法(filter)的基因选择方法
过滤法主要研究在不同类型样本中基因表达的差异,该方法属于单基因选择法并与最后用于验证分类的方法相互独立。信噪比(signal-to-noise ratio)准则是由Golub[4]等人在1999年分析研究白血病微阵列数据时提出的,目前为止,该方法仍被广泛应用于各个领域。之后,科研人员又把统计概率的方法应用于识别差异基因。计算的基因表达水平的方差和均值通常都不可靠也不准确,因为非参数统计量一般对假设条件的要求都不高,所以基因选择准则不仅采用参数统计量,还提出了许多非参数统计的方法并得到了广泛应用。
(二)基于封装法(wrapper)的基因选择方法
封装法与过滤法不同,选择特征基因的算法是一个以归纳算法为主的缠绕器,既可以用归纳算法寻找特征基因,该算法本身又可以评价特征基因即为评价函数。封装法通过比较基因的不同分类贡献率来判定基因的重要性,所以该方法提供的分类精度与过滤法相比精度更高。因此,人们提出了很多基于不同学习方法的封装法用来选择癌症的关键基因。在基于封装法的基因选择方法中,成果最为显著的是,Guyon等人通过结合反复特征消除方法和支持向量机提出的SVM-RFE方法。[5]该方法在处理结肠癌和白血病数据时基因选择的效果比较好。然而,封装法的严重缺陷是在进行基因选择时要求反复对分类算法进行调用从而评估基因分类性能,所以该方法的计算量一般都很高。例如当通过人工神经网络分类器进行分类时,该封装法的可行性几乎为零。此外,利用封装法选出的基因特征对参与的分类算法的依赖性比较大,所以说通过不同的分类器选出的特征子集可能会不适应其他分类器。所以,在用封装法进行基因选择时还要考虑封装法对分类算法的鲁棒性。
【参考文献】
[1]Ennisi E P.The human genome.Sci,2001(29),1177-1980.
[2]Pierre,Brunak(著),张东晖等(译).生物信息学(第2版)[M].北京:中信出版社,2003 .
[3]陈润生.生物信息学[J].生物物理学报,1999(01):1-268.
[4]Golub T R,Slonim D K,amayo P T,Huard C,Gaasenbeek M,Mesirov J P,Coller H,Loh M L,and Downing J R et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring.Sci.1999,286:531-537.
[5]Brazma A,Minireview V L.Gene expression data analysis.Federation of European Biochemical societies.2000,480:17-24.
责任编辑:张丽