论文部分内容阅读
基因表达谱数据的聚类分析研究是生物信息学研究的重点。肿瘤样本的聚类分析有助于发现新的肿瘤类型或亚型。通过样本的聚类,不仅能确定肿瘤的类别,同时可以根据已知聚类的肿瘤样本对未知聚类的样本进行预测和分类,从而帮助诊断。另外,对于不同肿瘤类型或同一肿瘤的不同亚型,可以通过找出信息基因或不同致病时期的信息基因,来研究肿瘤的病变及转移等机制。而对基因进行聚类可以帮助找出功能表达相似的基因,从而发现基因之间的调控关系,并发掘出具有研究价值的基因,并从中筛选药靶和诊断靶。本文提出了几种有效的基于谱图理论的聚类或半监督聚类算法,并将其应用于肿瘤基因表达谱的聚类分析中。通过构图的方法将基于数字序列的无结构信息的基因表达谱矩阵转化为具有结构信息的图结构,在使数据有效降维的同时,获取肿瘤样本的图结构的特征表示,并利用相关的图论算法对肿瘤样本进行划分与识别,同时分析了相应的实验结果。主要内容如下:1.提出一种改进的谱聚类方法。通过对基因表达谱数据构造概率矩阵,经奇异值分解(SVD)后提取前k个特征向量,并以此作为肿瘤样本的特征表示,运用模糊C均值(FCM)进行聚类分析。对比实验证明了该方法的有效性。2.提出一种基于谱隙和单位特征向量的谱聚类算法。首先,以肿瘤样本为图的节点构造Laplacian矩阵;然后,计算Laplacian矩阵的特征值和相应的特征向量,并利用谱隙序列的最大值确定该方法的聚类个数;最后,选取相同个数的特征向量作为原始样本的特征表示,并从单位化特征向量着手,以实现样本的聚类。通过模拟数据与癌症数据的实验,证明了该方法的有效性。3.提出一种基于Gauss-Seidel迭代的标记传播算法,并将其应用于基因表达谱数据分析。首先将高维基因表达谱数据表示为权值矩阵,同时定义一个表示样本类别属性的标记序列,并将其中少量样本标记为已知;然后利用根据Gauss-Seidel迭代算法推导出的迭代公式更新标记序列,并证明了标记序列的解的收敛性;最后采用正负标记的方式,根据标记序列各分量的符号差异实现数据类别的划分。通过白血病和结肠癌数据集的实验,证明了该方法的有效性。