论文部分内容阅读
现实世界中有很多事物的统计指标是以时间先后次序排列而成的数据序列,通过对这些数据进行分析可以挖掘序列的内在规律,进而对未来的趋势进行预测。在经典的时间序列预测中要求历史数据具有一定的完整性和精确性,然而实际生活中存在着许多模糊不清的事实。针对经典时间序列无法处理带有不确定性数据的问题,Song等抽象出模糊时间序列的概念并建立了预测框架。在模糊时间序列预测模型的构建过程中论域划分和模糊关系的处理是影响预测精度的关键。对于论域划分,传统的模糊时间序列预测模型往往根据经验对论域进行划分,划分没有依据致使预测精度较低。对于模糊关系的处理,大量模型使用单因素进行预测,忽略了与预测变量相关的其他因素。除此之外,现实生活中的很多问题因为数据采样难度大,数据遗失等原因导致样本缺失,致使模型无法相对精准的预测。为解决这些问题,本文对模糊时间序列预测算法进行了研究与改进,并提出了两种基于模糊决策树的预测模型。针对传统模糊时间序列预测论域划分没有依据的问题,本文提出基于C-模糊决策树的自适应模糊时间序列预测模型,依据序列数据的关联关系优化论域划分。该模型利用C-模糊决策树挖掘序列数据的关联关系,通过验证集预测误差与论域划分复杂度构建目标函数,基于关联关系最小化目标函数,使模型自适应划分论域进行预测。同时为避免过拟合,基于决策树剪枝算法REP提出C-模糊决策树剪枝策略进行优化。本文在提出的基于C-模糊决策树的自适应模糊时间序列预测模型的基础上,进一步提出基于随机森林的多因素模型。考虑到很多实际问题中,影响预测变量的因素并非只有一个,此时使用单因素预测模型无法满足实际情况的需要,且存在大量现实问题有历史数据缺失的情况。因此利用C-模糊决策树引入多种因素构建模型进行预测,更加全面的分析样本特征,并通过随机森林解决样本缺失的问题。本文利用仿真实验评估模型预测精度,将模型分别应用于上证股指和TAIEX预测,并将预测结果同其他模型进行对比分析。实验结果表明,本文提出的模型能够克服按经验划分论域以及单因素预测的缺点并有效解决数据缺失问题,获得了较高的预测精度,验证了本文模型的有效性。