论文部分内容阅读
根据机器学习理论中“没有免费的午餐”定理,不存在能够完美解决一切问题的算法。数据集的规模和结构等很多因素会对最终结果产生影响。针对具体的数据集和现实需求,应该考虑如何选择合适的算法。本文提出了一种回归预测中最优模型选择的方法。这种方法的重点不是最后的具体模型,而是最优模型的选择过程。因此,它不仅限于用在某一给定的数据集上。这正是本文的创新之处。方法整体上分为数据集分解和集成模型选择两大部分。在数据集分解部分,先对原始数据进行季节调整,得到季节指数和趋势项序列,再将趋势项序列进行完备集合经验模态分解,得到本征模函数(IMF)。集成模型选择部分是本文的重点。对分解得到的IMF实现回归预测,可以用同一算法预测所有IMF,也可将诸IMF分成若干类,对不同类的IMF选择不同的算法。若对IMF分类预测,存在如何分类以及选择何种算法的问题。本文提出的方法是:对每条IMF用多种算法分别进行预测,选出最优集成模型,并有针对性地提出对比模型,验证所选最优集成模型是否性能最佳。实证研究中,分别用k近邻(kNN)、BP神经网络(BP)、极限学习机(ELM)和支持向量机(SVM)四种机器学习算法预测了诸IMF。选择SVM惩罚参数c和核函数参数g时,比较了网格搜索算法(GS)、人工蜂群算法(ABC)、粒子群优化算法(PSO)、布谷鸟搜索算法(CS)、差分进化算法(DE)和基于差分进化的混合灰狼优化算法(HGWO)等6种不同算法的结果。根据综合比较的结果,最优集成模型中选择了DE算法选择参数。