论文部分内容阅读
生物信息的爆炸式增长吸引了大量科研人员加入到生物信息学研究领域中来,使得生物信息学很快成为全球关注与研究的焦点。基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音非常大等特点,使得选择与肿瘤有关的信息基因或从基因表达谱中抽取肿瘤特征信息成为一项有挑战性的工作。正因如此,国内外专家学者对这个分类问题进行了广泛而深入的研究,发表了大量的研究论文。从基因表达谱的成千上万个基因中选择分类能力尽可能强而数量又尽可能少的信息基因子集极巨复杂性,通常情况下,在如此大的基因空间中进行穷尽搜索是不可能的事情。因而,合适的聚类方法与分类器的选择是至关重要的。本论文中,我们在总结肿瘤聚类与分类研究成果的基础上,提出了新的肿瘤信息基因选择方法和基于基因表达谱的肿瘤聚类与分类模型,然后详细阐述了模型的关键环节及所采用的方法,最后对聚类与分类正确率与用传统方法的结果做了比较。本文主要作了以下研究工作:第一,对选择的信息基因数据集进行肿瘤的聚类分析。我们提出了利用独立分量分析算法(Independent Component Analysis:ICA)进行信息基因的选择,然后将非负矩阵分解(Non-negative Matrix Factorization:NMF)及其扩展算法—稀疏非负矩阵分解(Sparse NMF:SNMF)和具有稀疏约束的非负矩阵分解(NMF withSparseness Constraint:NMFSC)用于聚类分析。实验采用了三种肿瘤样本集验证了我们所用方法的可行性和有效性。第二,在用ICA提取特征基因的基础上,进一步利用顺序浮动前向选择算法(Sequential Floating Forward Selection:SFFS)来选择最具判别力的特征基因,然后将支持向量机(Support Vector Machine:SVM)作为分类器进行肿瘤分类研究。我们也将这种方法用在三种肿瘤样本集上,通过与利用其它方法的结果对比,表明了算法有效性。本文最后指出了目前肿瘤分类研究存在的一些问题以及今后需进一步开展的研究工作。