论文部分内容阅读
生物学和医学的迅速发展以及基因芯片的逐步实用化都使得同时比较和研究大量基因的特性成为可能,随之产生了海量的基因数据。通过分析这些数据可以获得对人类有益的有关生物结构和功能的信息,对基因数据的分析研究己成为生命科学、数学科学与计算机科学等学科非常活跃的交叉课题之一。聚类分析是基因数据分析的一种重要手段,本文着重研究基因表达数据和基因序列数据中的聚类分析算法。
针对目前常用的基因表达数据聚类分析算法中存在的参数依赖性强,并且在整个聚类过程中类的数目始终保持不变的缺点,本文引入动态调整聚类个数的思想;针对不能对空间中有部分重叠的点进行有效的分类从而不能得到全局最优的聚类结果,本文进一步引入伪F统计量,提出了一种基于多维伪F统计量的动态K-均值聚类算法。根据用户要求的聚类次数,每次开始于基因表达数据中两两基因间在多维表达水平下的相似度矩阵,动态地选取一定数目的基因作为初始聚类群,根据离差平方和法,不断精练初始聚类群,从而使得聚类个数不断地变化,且动态地向正确的聚类个数逐渐收敛。该算法能保证最终聚类结果类内散布矩阵之迹达到最小,把多维空间的数据点有效划分为具有特定数目的不同的类,给出最佳聚类个数。
基于图BAG的聚类算法是基因序列数据分析中经典的聚类算法,但在该算法中相似分数阀值初始值和最长公共子串最小长度阀值如何确定没有明确给出,本文提出了一种基于比对相似度动态矩阵SZDM的聚类算法,利用动态矩阵来表示序列间的匹配关系,明确给出了确定相似度分数阀值和最长公共子串的最小长度阀值的方法,使得算法具有较好的聚类正确率。
在分析常用的聚类分析算法的基础上,本文提出了一种新的聚类分析方法:基于交集的统计改进的组合聚类算法SCCA(statistical Mended Clustering Combination Algorithm Based on Intersection)。算法借鉴了统计学的思想,对边缘对象进行统计分类。给定同一数据集的不同聚类结果,此算法先求出不同聚类结果中每个分类的对应关系,然后计算这几个聚类结果对应分类的交集,对剩余的有争议对象进行统计,最后把统计后仍未确定归属的对象分配给最近对象所在的分类中,或者不经过统计直接将有争议的对象分配给最近对象所在的分类。本文对上述研究进行了验证和分析。实验结果表明,基于多维伪F统计量的动态K-均值聚类算法可以动态地调整聚类个数,给出了最佳聚类数目;基于比对相似度的动态矩阵的序列聚类算法可以获得比较好的聚类正确率;基于交集的统计改进的组合聚类算法聚类质量优于组合前的任意一个算法。