论文部分内容阅读
随着基因芯片技术的快速发展,我们可以快速准确地获得肿瘤基因表达谱数据.特征选择和样本分类是基于基因表达谱数据的肿瘤分类的两个基本问题.通过分析这些数据可以为肿瘤早期诊断和从分子层面上研究提供强有力的工具.近几年来基于稀疏表示的肿瘤分类技术受到越来越多的关注.然而基于稀疏表示的分类器存在以下问题:(1)高度依赖充足的训练样本;(2)忽略蕴含在测试样本中的信息;(3)重建误差的分类不稳定性.而且,设计高效且具有生物意义的基因选择方法是目前发展的趋势.针对以上问题,本文主要做了如下研究工作:一方面,提出了一种基于反投影表示和类别贡献率的肿瘤分类方法,并从理论上证明了该方法的可行性和稳定性.首先,通过挖掘嵌入在测试样本中的信息,构造了一种新的反投影表示模型以减小训练样本数目的影响;然后,为了匹配反投影表示模型完成分类,提出了一种新的分类准则——类别贡献率;最后定义了一种新的统计指标——分类稳定性指标,用于量化不同分类准则的稳定性.另一方面,在前一工作的基础之上,进一步提出了一种结合两阶段混合基因选择和反投影表示模型的肿瘤分类方法.两阶段混合基因选择方法的第一阶段是综合BW、SNR和F检验三种过滤法的基因初选,第二阶段是基于统计Lasso方法对初选出的信息基因进行再次选择,得到可能的致病基因.进而,结合反投影表示模型完成分类.实验部分针对第一个工作,首先验证了反投影表示对小样本问题的有效性,然后利用分类稳定性指标验证了本文基于类别贡献率的分类准则的稳定性,最后进行了分类方法的鲁棒性测试;对于第二个工作,首先给出了基因选择的必要性和Lasso的可行性验证,然后借助不同阶段基于主成分分析的可视化投影分布图和分类性能验证两阶段混合基因选择方法的高效性.值得一提的是,进一步地借助该方法选出了候选致病基因并对这些基因进行了生物学分析.