基于局部强化非负矩阵分解的基因表达数据聚类

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liqiuru1025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学的研究中,一个很重要的问题就是基于微阵列技术将肿瘤样本分到不同的类别中。和传统的聚类问题相比,它的难点在于基因空间的维数很高,而要聚类的样本数很小。原有的数据矩阵分解方法,如主成分分析(PCA)、矢量量化(VQ)、因子分析(FA)等在这类数据集上的聚类效果不佳。非负矩阵分解(NMF)已经解决了上述数据集的聚类问题,且它的非负性使聚类结果具有良好的可解释性等优势。本文先对NMF的相关理论进行深入的研究,论述了NMF的基本算法和各种变体算法。基于这些理论以及基因表达数据中所期望的聚类特性,给出了增加局部约束的非负矩阵分解(LR-NMF)算法。和原始的NMF相比,LR-NMF的目标函数不仅维持了原有的非负限制,更增加了对于原始数据的局部特征约束。最后通过对目标函数最小化的求解,给出LR-NMF的迭代规则,并证明了该算法的收敛性。在实验部分,我们先对两组经典的基因表达数据(白血病数据集和成神经管细胞瘤数据集)进行详细介绍。然后将LR-NMF算法应用到这两组数据集上,并结合模式选择机制,利用将肿瘤样本聚类来验证算法的优势。同时,通过讨论参数选择,体现了LR-NMF在疾病数据集分解上的鲁棒性。最后,我们从实验及理论上可以得知:虽然LR-NMF和NMF同样都是局部最小化的收敛算法,但LR-NMF比NMF更适合进行局部特征提取,并且聚类的效果更好。
其他文献
学位
基于纹理的彩色图像分割技术一直都是学术界研究的重点,众多学者提出了一系列的相关算法,分为基于统计的纹理分割算法,基于模型的纹理分割算法与基于信号处理的方法。其中基于统
随着互联网和计算机存储技术的发展,人们对信息存储系统的要求越来越高,比如高速的读写性能、低功耗、强数据容错纠错及恢复的能力等等。而目前现有的基于磁盘的存储系统无法满
如今,XML(Extensible Markup Language,可扩展标记语言)已经成为了Internet上表示和交换数据的标准语言。在最近的几年时间里,学者们提出了许多的编码方案,在这些编码方案中,
在互联网上,计算机资源的利用率和计算能力的分布一直处于不均衡的状态。某些应用需要大量的存储资源和强大的计算能力,而与此同时互联网上大量计算设备和存储资源却处于空闲
竞争-冲突淘汰(C-CC)方式是星形网的一种存取控制方式,根据星形网的工作原理,C-CC方式分为六大类系统模型。其中Ⅳ类系统模型的数学模型十分复杂、运算量大,在进行数值计算时
在当前的智能交通系统研究领域中,动态条件下的车辆导航系统渐渐取代静态条件下的车辆导航系统成为目前主要的研究热点。本文首先介绍了车辆导航系统在智能交通系统中的作用
在线编程是指通过无线传输程序镜像到网络中的节点,以达到更新节点功能的目的。本文针对在线编程过程中节点能耗不平衡,不能针对目标节点进行功能更新等缺点,在Deluge的基础
相对于传统的宏内核操作系统来说,微内核操作系统由于其内核体积小、灵活性高等众多优点,已经广泛用在航空航天、汽车等多个领域。越来越多的应用需要可靠性更高性能更好的微
随着互联网的快速发展,网上内容极大丰富,为了在海量资源中快速获取有价值的信息,用户趋向于利用搜索引擎检索信息。市场需求的多元化促使专业搜索引擎和特定领域的门户网站在近