基于高斯混合模型的基因表达数据聚类研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:fdgongyongming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于DNA检测方法的不断创新与广泛运用,越来越多的基因表达数据被测量出来,通过对这些测量数据的研究,能够获得基因功能及调控相关的信息。目前聚类算法是一种比较有效的面向基因表达数据的数据挖掘方法,但基因表达数据通常具有高维度、噪声大以及数据量比较大的特性,大大影响了聚类分析的质量。因此,进一步深入探索聚类在基因表达数据领域的应用很有意义。  近年来,基于高斯混合模型的聚类算法因其适应性高,聚类性能好等优点,在聚类领域得到了很大的关注,相关的应用和研究也是越来越深入。本文以基因表达数据作为研究对象,在高斯混合密度模型的基础上做了相关聚类算法的实验探究,相关的工作可以概括为以下三点:  (1)本文具体阐述了基因表达数据基本概念,以及聚类在基因表达数据领域的研究背景和意义。介绍了高斯混合模型相关的基础知识和基本理论,并且讨论了模型选择相关的算法思想。  (2)研究并实现了在高斯混合模型基础上的K均值方法与EM算法的基因表达数据的聚类分析。针对EM算法中的初始类的数目很难决定,为了优化初始参数,将K均值方法与EM方法相结合,提出了一个新的适用于基因表达数据的聚类方法(New_KEM)。New KEM首先利用K均值方法全局性、效率高的特点,快速得到聚类的起始类的划分,将其设置为高斯混合模型的初始参数值,进一步采用EM方法进行聚类,得到最优聚类结果。通过两次对真实数据集的实验测试,将New_KEM算法分别与K均值方法以及EM方法进行了比较。实验表明,该算法是一种有效的聚类方法,在实验数据集上取得了比较高的准确度。  (3)研究并实现了基于谱聚类和高斯混合模型的基因表达数据的聚类方法及其相关技术。针对K均值方法对样本数据的分布形状敏感,在不同的初始化分下会产生不一样的聚类结果,而且常常陷入局部最优等情况,为了优化K均值聚类的效果,弱化随机值导致的初始化性能不高对实验结果的影响,引入谱聚类算法思想。在New_ KEM方法基础上提出了结合谱聚类的高斯混合模型聚类方法(New_SKEM),通过对基因表达数据集的实验验证,表明了New_SKEM方法的有效性。
其他文献
随着汽车的日益普及,如何安全驾驶汽车已经成为人们越来越关心的问题,而车载信息在汽车的安全驾驶中发挥着巨大作用,目前车载信息系统的研究已经被列入国家汽车计算平台项目研究
智能控制的发展对控制方法提出了更高的要求,神经网络的引入为智能控制搭建了新的平台,极大地推动了智能控制领域的研究与发展。在现代控制应用中,由于复杂系统采用传统控制方法
近些年来,随着海洋资源开发利用引起广泛关注,人们进军海洋的渴望越发的强烈。无人水下航行器(Unmanned UnderwaterVehicle,UUV)在进行海洋资源开发利用方面优势正逐步显现,正成为
倒立摆系统是非线性、强耦合、多变量和自然不稳定的系统。在控制过程中,它能有效地反映诸如可镇定性、鲁棒性、随动性以及跟踪等许多控制中的关键问题,是检验各种控制理论的理
根据国内各高校开设的控制类课程实验的需求,设计了一种新型的环形倒立摆/伺服系统教学实验仪。 本文从设计环形倒立摆/伺服系统教学实验仪出发,首先分析了实验仪的总体设计
随着控制科学和计算机科学的不断发展,基于嵌入式操作系统和微处理器的嵌入式系统具有功耗低、可靠性高等特点,因此嵌入式系统广泛的应用于工业控制、消费电子、网络通信等各种
随着现代战争中精确打击和反卫星技术的不断发展,捷联式惯性导航系统以其结构简单、低成本及自主导航等特点被广泛应用于各类战术导弹中。初始对准是惯性导航的关键技术之一,
近十多年来,随着经济的发展与人口的增长,特别是城市化的迅速发展,城市地价一直呈现出上升的态势,引起了市民、房地产开发商、政府的广泛关注。以往关于城市地价的研究主要集中于
随着印制电路板(Printed Circuit Board,PCB)集成度的提高,如何在高速电路中保证信号的完整性已经成为高速电路设计问题的关键。与此同时,PCB的工作温度也随着器件功能的进步
随着大功率直流电源在工厂、矿山的广泛使用,电源的体积和复杂程度越来越高,因此,智能监控软件和巡回检测系统对大功率直流电源的稳定可靠工作、无人值守与全自动化运行显得尤为