论文部分内容阅读
随着基因芯片技术的广泛应用,基因表达数据呈爆炸式增长,如何从该海量数据中获取有生物学意义的信息已成为生物信息学研究的热点。功能相近的基因通常具有相似的表达模式,因此,可以通过相似表达模式的发掘来预测基因的功能。聚类算法在处理基因表达数据时,可以将具有相似表达模式的基因聚为一类,据此推测基因的功能和发现基因间的相互关系。但是,基因间的相互关系非常复杂:基因往往具有多种功能、参与多个过程,从而基因表达数据是“高度关联的”,类簇也是高度交叉的,一个类簇可以嵌入另一个类簇中。硬聚类的单一划分忽略了这一多样性,所以常采用模糊聚类分析来进行基因表达数据研究。
传统的模糊聚类算法本身是一种主观性非常强的算法,且不考虑基因表达数据各维属性对聚类的不同贡献。选择不同的聚类算法,或者对一种聚类算法设定不同的起始点或簇数,都会导致不同的聚类结果。由于数据集可能来自不同的观测角度和观测人员,以及不同样本存在的关键性基因、关键性条件和噪音的差异,使得基因表达数据各维属性对聚类的贡献是不同的,若不考虑这种差异将会影响到聚类的精度。另外,传统的模糊聚类算法不考虑基因之间的相互关联性,使得聚类结果不具备很好的生物学意义。因此,需要进一步对算法进行改进。
针对目前基因表达数据模糊聚类分析中存在的问题,本文主要做了如下两部分工作:第一部分,首先引入一种数据集预处理方法,主要目的是解决FCM算法应用于基因表达数据分析时存在的初始值敏感性和参数依赖性问题。预处理算法基于类间熵寻找数据集的实际分类数目和代表点,并将其作为后续FCM算法的输入参数。然后基于信息熵求得基因表达数据各维属性的特征权重向量,最后将权重向量引入FCM算法。实验表明,新算法提高了聚类结果的稳定性和精度。第二部分,基于互信息求各维属性的特征权重,以此来解决FCM算法的聚类结果不具备很好的生物学意义这个问题。重点阐述了基于互信息获取基因表达数据特征权重的详细步骤,并通过实验验证了基于互信息特征加权的FCM算法使聚类结果具有很好的生物学意义且提高了聚类精度。