论文部分内容阅读
蛋白质质谱技术是一种蛋白组学研究有力的工具,在癌症的早期诊断和生物标志物(Biomarker)寻找中有着巨大的应用潜力。从模式识别的角度来看,癌症诊断和生物标志物寻找分别对应了模式识别中最经典的模式分类与特征选择问题。由于质谱数据本身具有高维度、小样本的特点,使得针对这些数据的分析与处理工作给传统的模式识别方法带来了巨大的挑战,因而特征选择成了必不可少的步骤。通常的模式识别分类方法强烈依赖于降维与训练两个步骤。但是存在几个突出的问题:首先,一个复杂的降维步骤也许在某一个数据集上表现良好,却很难直接应用于其他的数据集上。其次,一些特征提取方法(如PCA)仅仅为服务于分类判别任务,往往在转换而成的新特征空间里,数据仅被看成数值表达,而不再具有明确的物理意义。显然的,这些转换是不符合生物标志物挑选需求的。最后,训练完毕后的分类器退化成一个毫无“生气”的黑箱,不再具有对新数据的直接在线学习能力。针对上述的癌症诊断类型问题,本文在质谱数据分析中引入了稀疏表示分类方法。使用高斯分布的随机投影的方法简单的绕开特征提取过程;使用样本扩充的方法改善小样本问题中稀疏表示的欠稀疏情况,在改善实验结果的同时又印证了本文稀疏表示分类方法良好抗鲁棒性能力。另外,稀疏表示分类方法是一种在线型学习算法,能根据实际样本不断自我调节,从而不断“进化”,是一种智能化学习算法。在论证了稀疏表示分类能力的基础上,针对上述的生物标志物选择问题,本文结合稀疏表示分类与“缠绕法”特征选择模型,得到生物标志物候选集,在此基础上再进一步精选,得到了极少数却又对分类鉴别有突出贡献的生物标志物。通过公共数据集以及来自临床的数据集的实验结果表明,稀疏表示分类有着良好的分类性能以及抗鲁棒性能力,可以应用在蛋白质质谱数据的分类问题。本文的特征选择算法能够挑选出少量的几个具有较高性能,且具有生物意义的蛋白位点。