论文部分内容阅读
在基因表达谱数据分析和肿瘤诊断中,信息基因的选取是很重要的问题。本文基于冗余度和多基因分析提出了一种后过滤信息基因选取算法,即用于选取能够区分正常样本和癌变样本(或者两类肿瘤)的信息或特性基因。该信息基因选取算法利用相关性度量和建立在统计检验基础上的近似马尔可夫毯过滤掉冗余的基因。为了避免去除冗余的方法滤掉过多的基因,我们将进一步衡量这些基因中多个基因作为一个组合所起的分类效果,而不只是单纯地考虑单个基因的分类效果。在实际操作中,我们采用两种方法选取信息基因:第一种方法是先用传统单基因选取方法从基因表达谱中得到信息基因集合,然后应用后过滤信息基因选取算法对其进行过滤以得到更紧凑的信息基因集合;第二种方法是首先利用无监督聚类算法对基因表达谱数据中的基因进行聚类,然后在所得到的每一类上应用后过滤信息基因选取算法。实际上,本文首次将DSRPCL(DistanceSensitiveRivalPenalizedCompetitiveLearning)算法应用于基因的非监督聚类。这种聚类方法的好处是可以自动地确定类别的个数,而无须人为地指定一个数目。本文在结肠癌和白血病两个数据集上做实验,用支持向量机(SVM)在选取出来的信息基因上建立肿瘤诊断系统,也就是一个二元分类器,用来对未分类的新样本进行预测。和传统的信息基因选取方法相比较,通过后过滤信息基因选取算法能够得到更加紧凑的信息基因集合,由此建立起来的诊断系统可以用更少的基因达到较高的诊断正确率。