论文部分内容阅读
随着微阵列技术的广泛应用,越来越多的基因表达数据被获取,如何从海量的数据中提取有生物学意义的信息,是目前生物信息学的一个重点研究方向。
功能相近的基因其表达模式相似,通过对相似表达模式的发现可推测未知基因的功能。聚类算法是一种对无监督数据根据其相似性进行划分的数据挖掘方法,它能把相似的数据归为一类;在用聚类算法对基因表达数据进行处理时,它可将表达模式相近的基因聚为一类,从而进一步推测基因的功能和发现基因间的相互关系。
但是,聚类算法本身是一种主观性非常强的算法。选择不同的聚类算法,设定不同的起始点或簇数,都会导致不同的聚类结果。这导致对基因表达数据进行处理时,得到的结果也具有很大的主观性。目前,基因表达数据聚类分析的关键是如何有效的使用现有的聚类方法,降低其分析过程的主观性,从而对基因表达数据进行客观地划分。
针对基因表达数据聚类分析相关问题,本文主要做了如下工作:
(1)原始基因表达数据中经常会因为各种原因存在大量的缺失值,这些缺失值影响了聚类的结果。本文采用广义回归神经网络的方法对这些缺失值进行填补。
(2)采用多种聚类方法对基因表达数据进行分析;介绍一些聚类前沿算法;对聚类结果与数据空间分布的关系进行探讨。
(3)不同数据空间分布的基因表达数据应该采用不同的聚类算法,然而基因表达数据是高维的,无法直接判断其空间分布。本文将聚类结果的稳定性作为一个评估参数,提出基于稳定性的聚类算法选择方法。
(4)针对同一组数据,采用同一种聚类算法,每次得到的聚类结果往往也是不同的,这是因为聚类起始点的选取不一样。起始点的设置会影响聚类收敛过程中陷入局部最小的可能性以及稳定所需的迭代次数。本文提出采用主成分分析的方法对基因表达数据聚类起始点进行设置。