论文部分内容阅读
随着人类基因组计划的进行,DNA微阵列技术运用到肿瘤疾病研究中,产生了大量维数高、样本少的癌症基因表达数据。如何从海量的基因表达数据中发现和提取少量具有分类识别能力和最小冗余度的特征基因,挖掘出有用的知识和信息,比较全面地认识癌症的基因本质、获得对“癌症-基因”间关系的真实反映,对推进恶性肿瘤的临床诊断与治疗,进一步研究癌症、发现癌症的致病机理是非常重要的。本文利用压缩感知的理论对癌症基因表达数据进行分类,把癌症基因表达数据分类问题归结为求解测试样本对于训练样本的稀疏表示问题,通过求解癌症基因表达数据的重构来解决;通过计算重构的残差,根据残差来判断测试样本类别。这种分类方法不需要反复训练来构建分类器,只要测试样本在训练样本上的投影足够稀疏,就能取得比较好的分类效果,并且耗时比较少。本文主要研究内容如下:1.高维癌症基因数据的降维研究。利用基于信噪比(SNR)、主成分分析法、基于Relief过滤法、基于Fisher准则这4种方法将癌症基因数据进行降维,然后使用压缩感知方法对降维后的数据进行分类以评估降维效果。研究表明,主成分分析法后的特征更有利于求解稀疏解,分类精度比较高。2.癌症基因表达数据的重构算法。运用训练样本组成的完备字典,通过信号的重构算法,找到用完备字典中表示测试样本的稀疏解,然后计算残差,残差最小的项即为测试样本的类别。在重构算法中利用L1范数最小化来求解稀疏解,与Bagging神经网络、SVM和ELM的识别效果进行比较和分析,实验表明即使是分类效果比较差的Brain数据集,也能达到平均80%左右的分类精度。3.重构算法的速度优化。在信号重构算法中利用正交匹配追踪算法来求解,分类精度与L1范数最小化的分类方法相差不多,但比L1范数最小化算法节省约50%的时间,从而显著提高了癌症基因表达数据的重构速度,有利于运用于低计算能力或者高计算速度要求的设备中。