论文部分内容阅读
大规模基因表达谱为肿瘤诊断提供了更为可靠和细致的生物数据,但相关基因的选取是对这些数据进行分析的关键.本文从Kullback-Leiber判别信息的角度对于肿瘤相关基因的选取进行了研究.根据肿瘤相关基因和无关基因的表达水平值分布的特性,我们提出了一种基于信息准则的基因选取方法.进一步,我们将这种方法应用到肿瘤诊断上,并根据支持向量机(SVM)对相关基因表达谱数据进行训练建立肿瘤诊断模型.实验结果表明这种方法是有效的,依此所建立的诊断模型可使得在结肠癌数据集和白血病数据集上的诊断(预测)正确率分别高达94.