论文部分内容阅读
时间序列数据是一种广泛存在的数据形式,来源于各种实际应用中。通过对时间序列数据的挖掘,可以为政府及企业制定决策规划提供可靠的依据,具有重要的现实意义。极限学习机(Extreme Learning Machine,ELM)算法是近几年出现的一种新颖的机器学习算法,与传统的机器学习算法相比,具有结构简单,学习速度快以及良好的全局寻优能力,在复杂系统建模、实时在线预测、大规模样本学习等问题中表现出巨大潜力。本文在Reduced Kernel ELM(RKELM)算法及在线极限学习机(Online Sequential ELM,OS-ELM)算法的基础上,提出一种在线核极限学习机(OS-KELM)算法,并就OS-KELM算法中的相关问题提出改进,同时根据时间序列数据的时效性特征,设计并实现了一种自适应集成在线核极限学习机(Adaptive Ensemble OS-KELM,AEOS-KELM)算法用于时间序列数据的在线预测。论文的主要工作有以下几个方面:首先,本文介绍了极限学习机模型的概念、理论基础、算法原理及国内外研究现状,然后按照极限学习机的演化方向将其分为结构增长型极限学习机、结构递减型极限学习机、正则化极限学习机、在线极限学习机及核极限学习机共五类,并分别就每一类极限学习机模型给出几种典型的训练算法,并分析其优缺点为后续研究提供借鉴意义。其次,本文在RKELM算法及在线极限学习机(OS-ELM)算法的基础上,提出一种在线核极限学习机(OS-KELM)算法,同时,本文将时间序列数据具有时效性的特征引入到在线核极限学习机的训练中,通过引入惩罚权重来区分不同时刻数据对于预测的贡献,对最新的历史数据赋予较高的权重。但是,考虑最新的历史数据可能是噪音数据,因此,惩罚权重的设定不应该是固定,而是应该根据当前数据的特征自适应的改变,对此本文引入了惩罚权重的计算公式,该公式根据t时刻与t+1时刻数据的均值与方差自适应的改变惩罚权重,能够有效的避免此类误差的发生。另外,由于在线核极限学习机算法的预测准确率受核函数中参数的影响,本文根据果蝇算法(Fruit Fly Optimization Algorithm,FOA)原理及在线核极限学习机的特点提出改进的果蝇算法用于优化在线核极限学习机;然后,由于在线核极限学习机是从训练数据中以一定比例抽取部分数据用于核矩阵的运算,这就影响了在线核极限学习机的泛化能力,因此本文提出了自适应集成的在线核极限学习机,通过选择泛化能力好,预测精度高的在线核极限学习机用于算法的集成预测以提高算法的稳定性。最后,本文运用Matlab 2009b实验平台,编程实现了AE-OSKELM算法,并就仿真数据、UCI数据集及真实股价数据与经典的机器学习算法,如BPNN、LS-SVM及ELM等算法在时间复杂度和预测准确性方面作对比以验证本文算法的有效性。另外,在做对比实验之前,本文通过大量实验研究了各算法参数的设置,如BPNN、ELM和OSELM算法隐含层节点数的设置以及AE-OSKELM算法中核样本比例的大小与时间复杂度及预测准确性的关系等。最后,通过实验对比发现本文提出的算法具有较好的抗噪能力,能够很好的拟合仿真数据、UCI数据集及真实股价数据的预测曲线,在相同的时间复杂度情况下具有最小的预测误差。通过本文的研究,一方面是对极限学习机理论的总结和完善,通过对极限学习机理论及其发展的归纳总结为后续研究提供借鉴,同时,本文提出了AE-OSKELM算法丰富了极限学习机的理论研究;另一方面,将在线核极限学习机与时间序列预测相结合,并通过大量实验验证了AE-OSKELM算法的有效性,为股票价格及其他时间序列数据的挖掘提供一种较好的预测方法。