论文部分内容阅读
代谢组学可以被定义为一种重点考察生物体系受到外界因素的加入(如感染、疾病、药物等)其代谢产物的变化以及其随时间的变化趋势和代谢途径的科学方法。代谢组学方法产生的数据一般是高维小样本的数据,其中包含很多的噪音和冗余数据。因此,从中提取出具有解释能力的数据对理解复杂生物的代谢过程是非常重要和有意义的。在代谢组学数据的处理中,多元统计分析和机器学习算法的利用是十分必要的,例如主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)等。支持向量机(SVM)是一种具有良好的推广能力的方法,相比较于其他的多元统计方法具有明显的优势。SVM-RFE是一种基于支持向量机的特征选择算法,该算法也是一种非常有效的方法。在近些年来,特征选择算法的稳定性也受到了越来越多人的关注。本文首先利用不同策略的SVM和SVM-RFE对水稻纹枯病进行处理,并与PLS-DA进行对比。结果表明,前者具有较好的分类能力并且提取出了较少的特征,模型的R2/Q2值及其截距表明特征选择后的结果所建的模型具有很好的解释能力和预测能力。SVM-RFE的特征筛选过程是一个反向的删除过程,其中每次排在最后的m(过滤因子)个特征被删除,然而其中m的大小对算法造成了不稳定。因此,本文提出了一种基于动态过滤因子的SVM-RFE算法,即SVM-RFE-DFF,该算法在每次迭代的窗口中删除了噪音和冗余属性。之后,算法中加入了融合技术,从而进一步的提高了算法的性能以及稳定性。该算法应用于代谢综合症的处理之中,实验的结果表明SVM-RFE-DFF的分类效果比SVM-RFE要好,而且窗口对SVM-RFE-DFF的影响要远小于过滤因子对SVM-RFE的影响,同时融合技术加入后使得算法有了更进一步的提高。