论文部分内容阅读
由于DNA检测方法的不断创新与广泛运用,越来越多的基因表达数据被测量出来,通过对这些测量数据的研究,能够获得基因功能及调控相关的信息。目前聚类算法是一种比较有效的面向基因表达数据的数据挖掘方法,但基因表达数据通常具有高维度、噪声大以及数据量比较大的特性,大大影响了聚类分析的质量。因此,进一步深入探索聚类在基因表达数据领域的应用很有意义。 近年来,基于高斯混合模型的聚类算法因其适应性高,聚类性能好等优点,在聚类领域得到了很大的关注,相关的应用和研究也是越来越深入。本文以基因表达数据作为研究对象,在高斯混合密度模型的基础上做了相关聚类算法的实验探究,相关的工作可以概括为以下三点: (1)本文具体阐述了基因表达数据基本概念,以及聚类在基因表达数据领域的研究背景和意义。介绍了高斯混合模型相关的基础知识和基本理论,并且讨论了模型选择相关的算法思想。 (2)研究并实现了在高斯混合模型基础上的K均值方法与EM算法的基因表达数据的聚类分析。针对EM算法中的初始类的数目很难决定,为了优化初始参数,将K均值方法与EM方法相结合,提出了一个新的适用于基因表达数据的聚类方法(New_KEM)。New KEM首先利用K均值方法全局性、效率高的特点,快速得到聚类的起始类的划分,将其设置为高斯混合模型的初始参数值,进一步采用EM方法进行聚类,得到最优聚类结果。通过两次对真实数据集的实验测试,将New_KEM算法分别与K均值方法以及EM方法进行了比较。实验表明,该算法是一种有效的聚类方法,在实验数据集上取得了比较高的准确度。 (3)研究并实现了基于谱聚类和高斯混合模型的基因表达数据的聚类方法及其相关技术。针对K均值方法对样本数据的分布形状敏感,在不同的初始化分下会产生不一样的聚类结果,而且常常陷入局部最优等情况,为了优化K均值聚类的效果,弱化随机值导致的初始化性能不高对实验结果的影响,引入谱聚类算法思想。在New_ KEM方法基础上提出了结合谱聚类的高斯混合模型聚类方法(New_SKEM),通过对基因表达数据集的实验验证,表明了New_SKEM方法的有效性。