论文部分内容阅读
本文研究了基于优化算法的蛋白质质谱数据的特征选择问题。蛋白质质谱技术对于早期癌症的诊断和识别生物标记物是一种革命性的研究工具。但是数据的高维性和小样本问题对于模式识别方法提出了很大的挑战。因此为了解决质谱数据的维灾难问题,在模式分类之前特征选择是必须的降维步骤。特征选择最重要的两个因素是搜索策略和特征评价度量。在生物信号的特征选择领域,单变元特征评价度量已经在文献中提出应用,但是多变元度量却极少使用。本文提出了两个有效的智能优化算法--遗传算法和模拟退火算法来进行特征选择,并且提出了5个多变元特征子集评价函数--包括基于封装器的度量和基于过滤器的度量。k-fold交叉验证用来划分数据成训练样本集和测试样本集。基于线性判别式分析的模式分类器被用来验证特征选择的子集。
通过实验表明,马氏距离及经验分类错误率和后验概率的线性组合是2个很好的特征子集评价函数。同其他方法的比较结果证明,本文提出的基于智能优化算法特征选择模型和特征子集评价度量的结合可以获得比其他文献中已提方法更好的性能。在由FDA-NCI临床蛋白组学计划数据库和弗吉尼亚前列腺中心得到的5个权威数据库上的实验表明,这个方法可以得到具有显著的类区分特性的特征子集,这些子集为发现生物标记物和癌症的早期诊断提供了重要的参考。