论文部分内容阅读
聚类分析作为数据挖掘的重要组成部分,在各个研究领域都发挥着极大的作用,近年来更受到了高度的重视。了解并掌握其原理,将其妥善运用在各种数据分析中是十分必要的。作为聚类的重要方法,基于模型的聚类已经被广泛用于聚类应用中,包括手写识别、文本聚类、图像分割等多个领域。生物信息学近年来得到了极大的发展,作为其中重要的组成部分,蛋白质序列数据的研究也成为了人们关注的重点。鉴于此,本文将基于模型的聚类方法应用在蛋白质序列的分类研究上,以弥补前人常用聚类方法的不足,注入新的思想。本文首先回顾了基于模型的聚类方法的发展历程和国内外学者的研究成果。随后重点阐述了聚类分析的理论知识:简要介绍了聚类分析的含义,详细总结了目前聚类常用的经典算法、高级算法和多源数据算法的内涵,着重阐释了基于模型的聚类方法所涉及的混合模型、参数估计的期望最大化算法和模型选择准则方面的理论知识,并简单分析了基于模型的聚类方法存在的优势和局限性,最后总结了当前聚类分析的实际应用情况。接下来,利用多种具体方法,建立不同的模型,进行参数估计,从而对蛋白质序列进行分类研究。将聚类分析的理论运用在了一个预测蛋白质定位位点的具体实例中:该数据集包含1484个酵母氨基酸序列,共有8个属性变量,10个具体的定位位点。采用k-均值法和基于模型的聚类方法对问题进行处理和分析,其中k-均值法以聚为5类和聚为8类加以说明,基于模型的聚类方法则分别运用基于高斯混合模型法(mclust)、子空间聚类法(hddc)和混合法(Rmixmod)进行运算并得到结果。最后,将理论结果与实际含义相结合,对不同方法的运算结果进行详细的探讨并加以评判。首先,可以清楚地看到,基于模型的聚类方法对蛋白质序列做分类可以得到比较好的效果:分类清晰,各类之间差异显著,类的含义更具有代表性;在聚类的簇的个数选择方面有明确的理论支持;以概率形式对每一类进行表示,每一类的特征也可以用相应的参数来表达,将类别问题转化为最优化模型的问题,在对每一类的性质进行更专业的研究时,可以更好地应用统计的思想和方法,提供一种新的思路。其次,基于模型的聚类方法与k-均值法相比,也有明确的优势:它很好地弥补了k-均值法在聚类个数选择上的欠缺,分类结果的代表性也更为明确和合理。再次,为了从基于模型的聚类方法中选出最为合适的聚类算法,采用了三种不同的具体方法,通过比较这三种方法的结果,针对这一具体问题,基于高斯混合模型法和混合法所得结果比子空间聚类法更为合理,且基于高斯混合模型法操作起来更为简便,对于初学者来说也更容易理解。可以说,基于模型的聚类方法,为相关问题的研究提供了一个新的思路和发展方向,相信在生物信息学领域会有很好的应用前景。