论文部分内容阅读
肿瘤的发生和发展是一个复杂的多阶段过程。它通常是由于某些基因突变和异常表达所致,或者进一步影响另外一些基因的表达,从而导致细胞内一些蛋白质分子发生改变,并由此产生肿瘤病理学上的差异,因而形成了临床诊断中的不同分类。能够正确的对不同病理分型的肿瘤进行分类,并找出导致其分型的差异表达基因,对肿瘤诊断和治疗具有非常积极的意义。本文根据肿瘤基因表达数据的数据特性和生物机理,研究其分类和差异表达基因提取方法,主要开展了以下工作:1.分析和实现了非负矩阵因子分解(NMF)算法,并提出将此算法用于胃癌基因表达数据的正常样本与疾病样本的分类,且分类正确率高达98.41%。同时,本文将NMF算法推广到结肠癌样本的分类中,正确率达到88.10%。研究结果表明,本文方法对疾病的临床诊断和生物医学研究有重要的参考和借鉴作用。2.基于NMF算法提出了差异表达基因的提取方法。该方法主要通过分析基因与集合基因之间在数值表达上的相互关系,提取在胃癌组织中有显著上调表达或者下调表达的差异表达基因,并通过EASE基因表达分析软件系统对有差异表达的基因进行统计学分析,找出共同参与某一生物过程的一系列基因,结合相关医学文献对在胃癌的发生发展过程中起到重要作用的基因进行详细注释。该方法通过对集合基因的巧妙利用,扩展了非负矩阵分解算法的应用,弥补了NMF算法在差异表达基因提取方面的缺陷,同时丰富了NMF算法的生物意义。