论文部分内容阅读
随着高通量生物技术和数据采集技术的发展,产生了大量的生物数据,如基因表达数据、基因互作网等。基因表达数据分析在癌症亚型分类、基因治疗、药物研发等领域有着广泛的应用。基于癌症病人基因表达数据的差异,将癌症病人划分到不同的亚型,可为疾病的精准治疗提供指导改善治疗效果,也可以为药物研发和病理分析等提供辅助。聚类是基因表达数据分析中最主要的技术之一,如何利用聚类更高效、更精准地发现癌症亚型具有非常重要的现实意义。基因表达数据具有高维度、高噪声、样本少的特点,并且相似的基因(或样本)可能只在局部的样本(或基因)上有相关性。而传统聚类只能单独对样本(或基因)进行聚类,普遍基于样本的全局特征信息,在基于基因表达数据发现癌症亚型上面临着诸多不足。双聚类算法同时从基因和样本两个维度对基因表达数据进行聚类,能够挖掘出在少量基因(或样本)中有相关性的样本(或基因)集合,在基因表达数据分析中得到越来越多的应用。但是,现有双聚类算法普遍只能挖掘出某一种类型的双聚类簇,或以贪心搜索的方式挖掘多种类型的双聚类簇但是效率低。基因相互作用网络有助于发现癌症亚型,但是这种先验知识很少被结合到双聚类过程。此外,聚类集成技术是提升聚类的精度和鲁棒性的一种有效途径。双聚类集成算法需同时从行和列两个维度集成,比传统聚类集成算法在优化方法和时间复杂度上面临更大的挑战。现有的双聚类集成算法存在难以应用到大规模数据,对基础的双聚类簇结构的整合利用不充分等不足。本文针对癌症病人基因表达数据聚类研究中存在的上述问题,以提高基因表达数据上聚类的精度和效率进而准确发现癌症亚型为目标,完成的主要工作如下:(1)提出了一种基于矩阵分解和基因相互作用网络的双聚类算法(NetBC)。NetBC首先基于基因的表达值变化和基因相互作用网络,利用GeneRank算法设置基因的权值;其次,将权值矩阵结合到基于矩阵三元分解的平方残差目标方程中;最后,通过迭代优化行和列的指示矩阵,获取双聚类簇。在多种癌症基因表达数据集实验上的实验结果,都表明了该方法在癌症亚型分类上的有效性与优越性。在模拟噪声注入实验中,NetBC显示出了比相关方法对噪声更强的鲁棒性。此外,在模拟生成的不同类型的双聚类簇的数据集上,NetBC相比于相关方法,能更有效的挖掘出更多不同类型的双聚类簇。(2)为能够高效整合多个基础双聚类结果,本文提出了一种基于混合图的双聚类集成算法(CoCE)。CoCE采用不同的双聚类算法多次运行得到不同的双聚类簇,并且利用平方残差对双聚类簇的质量进行评估,从而度量基因-样本的关联性;其次,CoCE利用这些双聚类簇定义基因-基因和样本-样本之间的关联性,并结合基因-样本的关联性构建混合图;最后,将双聚类集成问题转化为混合图上的最小损失图分割问题,并利用混合图邻接矩阵的分块特性进一步优化和加速图分割问题。在多种癌症基因表达数据集上的实验表明,CoCE比现有相关算法能够更高效和准确地发现癌症亚型。