论文部分内容阅读
特征选择是模式识别领域,尤其是生物信息学领域的研究热点之一.基因芯片技术的飞速发展使人们在一次实验中可以同时检测出成千上万个基因的表达值,从而获得大量的基因表达数据.然而,基因数据具有维数高、样本个数少的特点,这使得基因表达数据的特征选择具有一定的研究意义.如何在海量的基因表达数据中选择那些与疾病相关的基因,成为了一个具有挑战性的课题.本文提出了改进的二叉决策树分类算法和基于二叉决策树的基因选择算法.具体来说,它包括以下两个方面:1.改进的二叉决策树分类算法.我们综合了决策树的ID3 (Iterative Di-chotomiser)、C4.5和CART (Classification and Regression Trees)算法,提出了改进的二叉决策树分类算法(Classification Algorithm based on Binary Decision Tree, CABDT).为了降低数据的噪声对分类实验结果的影响,我们引入了经验风险的概念对决策树进行剪枝,提出了后剪枝二叉决策树分类算法(Postpruned Classification Algorithm based onBinary Decision Tree, P-CABDT).2.特征选择在基因表达数据分析中的应用.基因数据具有维数高、样本个数少的特点,特征选择(即基因选择)在这里显得尤为重要.针对基因数据,本文提出了一种基于二叉决策树的基因选择算法(Gene Selection Algorithm based on Binary Decision Tree,GSABDT).该方法属于嵌入法,自动地选出了数目很少并且与疾病发生有关的基因,从而降低了分类问题求解的规模.