论文部分内容阅读
时序预测方法根据时序历史数据对未来的发展趋势做出推断。它被广泛地应用到各个领域当中,以支持不同主体的决策与规划,并取得了良好的效果。时序预测方法融合了多个研究领域的方法,并且已经发展出了许多类型的预测模型。其中,集成模型由于其良好的预测性能而受到了研究者的广泛关注。通过将多个基模型的预测结果进行组合,集成模型能够克服个体模型的缺点,并具有较高的预测精度。 由于时序特征的复杂性和多样化,尚不存在一种通用的集成模型,能够在不同的时序上均表现出比较好的预测性能。在这种情况下,本文针对时序的不同特征,从数据处理、基模型选择和集成策略三个方面进行深入研究,提出了四种新的集成模型。研究结果表明,本文所提出的集成模型对于特定类型的时序数据具有良好的预测性能。本文的主要贡献有以下四个方面: (1)针对股指时序融合了多种复杂特征的情况,提出了基于稀疏分解(Sparse Decomposition,SD)的集成模型。稀疏分解能够根据时序特征设计特别的分解方案,有效地分离时序的多种特征,提高预测精度。在本文中,稀疏分解技术首先根据股指时序表现出的多尺度波动特征,采用傅里叶函数、不同尺度的小波函数以及克罗内克函数来构造一个过完备函数字典,然后采用正交匹配追踪算法对时序进行稀疏表示,最后分解时序。相比于小波分解技术,它对基函数的选取更为灵活。基于分而治之的思想,该集成模型首先将时序分解为成分序列,然后分别使用神经网络来建模和预测,最后使用神经网络集成预测结果。在实证研究中,我们对比了该模型与单个预测模型、基于小波分解的集成模型、基于经验模态分解的集成模型以及标准的stacking集成模型在6个股指序列上的预测性能,验证了所提出模型的有效性。 (2)针对股指时序的输入特征维度过高的情况,提出了基于深度特征学习的集成模型。深度学习方法—非监督式的堆叠自编码器(Stacked AutoEncoder,SAE)是一种非线性降维技术,具有良好的提取信息的能力。在本文中,我们使用它对股指时序的原始输入特征进行降维处理,并使用处理后的输入特征来训练随机森林集成模型。在实证研究中,我们对比了该模型与不采用降维技术的集成模型以及采用线性降维技术主成分分析的集成模型的多步长预测性能,表明了所提出模型的有效性。此外,我们也构建了基于SAE技术的神经网络预测模型和支持向量机预测模型,验证了SAE作为一种数据处理技术具有广泛的适用性,能够提高不同预测模型的性能。 (3)针对原油价格时序存在大量影响因素的情况,提出了基于监督式深度学习方法的集成模型。深度学习方法—监督式的堆叠去噪自编码器(Stacked Denoising AutoEncoder,SDAE)是一种强大的深层架构的预测技术,该技术同样具有提取高级表征函数的能力。在本文中,我们直接使用监督式SDAE模型作为基模型,结合bagging算法来构建集成模型。该模型首先采用bootstrap算法对训练样本进行多次采样生成多个新的训练样本集,然后用这些训练样本集分别训练不同的SDAE基模型。在预测阶段,将所有SDAE模型的预测结果取平均即得到最终预测结果。在实证研究中,我们对比了该模型与经典的单预测模型以及基于浅层架构基模型的集成模型在原油价格时序预测上的性能,并使用Wilcoxon signed rank test (WSRT), forecast encompassing test (FET)和reality check (RC)三种统计检验方法来检验了不同预测结果的差异的显著性,综合验证了所提出模型的有效性。 (4)针对复杂时序存在结构性断点和异常值的情况,提出了基于修剪平均策略的集成模型。修剪平均(Trimmed Average,TA)能够通过去除极端预测值来提升集成模型的预测性能,并且无需额外的训练样本来估计权重,因而对小样本时序非常实用。在本文中,我们基于TA策略构建了两个集成模型,包括基于修剪平均的自举神经网络集成模型(Trimmed Average based Bootstrap Neural Network Ensemble,TA-BNNE)和基于修剪平均的蒙特卡洛神经网络集成模型(Trimmed Average based Monte Carlo Neural Network Ensemble, TA-MCNNE)。这两个模型分别使用bootstrap算法和蒙特卡洛算法来采样并生成多个训练数据集用于训练基模型。在实证研究中,我们对比了所提出的模型和基于简单平均(Simple Average,SA)策略的集成模型在111个商业时序预测上的性能,验证了所提出模型的有效性;并且在预测11个复杂时序上,TA策略能够带来更大的性能提升效果。