论文部分内容阅读
长期以来,对于时间序列的预测研究多是以单变量模型为主。然而,现有研究表明,复杂的实际系统往往包含多元特性,将具有一定相关性的多个序列作为一个整体进行研究,更有助于解释系统的内在运行规律。目前,国内外对多元时间序列的研究取得了一定的结果。但是,这些方法未能针对如何使用多元序列给出具有指导性的建议。与此同时,对于多元序列的引入对模型的泛化性能、参数选择所带来影响也缺乏细致的讨论。基于此,本文以基于多元时间序列的变量选择及模型优化为题进行研究,以探索适合于多元时间序列的建模方法,主要研究内容包括:1、针对多元时间序列的预测问题,分别提出稀疏前向正交模型和1范数极端学习机方法用于模型结构的优化。虽然多元序列的引入能够为预测模型的建立提供更为丰富的可用信息。但是,输入变量的增加亦将增加模型的复杂度,从而易导致过拟合现象的发生。为此,本文首先提出一种稀疏前向正交模型。该方法借助于预测残差平方和(Predicted Residual Sums of Squares, PRESS)统计和增量式选择算法,实现模型基函数的自适应选择。与此同时,通过奇异值分解及矩阵变换,实现候选基函数的批量正交化,从而简化了PRESS统计的计算过程。此外,通过引入1范数正则项,本文还提出一种改进型的极端学习机(Extreme Learning Machine, ELM)算法。其中1范数正则项的使用不仅能够克服过拟合现象的发生,还将驱使部分网络节点的输出权值趋于原点,以实现简化模型结构的目的。在此基础上,进一步引入适当的替代函数,将包含1范数正则项的目标函数转化为易于求解的形式,从而可以方便地采用贝叶斯方法实现参数估计。2、基于稀疏核密度估计,提出一种简化的互信息方法,使其适合于多变量预测模型的输入变量选择。由于在序列中增加了不必要的冗余变量或不相关变量,将在一定程度上影响系统的建模效果。因此,需要根据多元变量之间的相互关系来选择合适的输入变量子集。互信息是一种有效的相关性分析方法,但是,方法中所采用的核概率密度函数的估计过程较为繁琐。为此,本文提出一种基于1范数ELM的估计方法,以简化互信息的实现过程。该方法将核概率密度的估计过程转化为回归问题,并借助1范数极端学习机进行求解。同核密度估计方法相比,所提方法具有更为稀疏的表达形式,从而简化了概率密度函数的估计过程。此外,由于极端学习机映射得到的特征空间是可知的,而无需核函数的构建。因此,无需考虑核函数类型以及参数的选择问题。除此之外,基于一致性评价函数、灵敏度分析和主成分分析方法,本文还提出三种输入变量选择方法,辅助说明了其在多变量预测模型中的必要性。3、基于Huber损失函数和拉普拉斯分布,提出鲁棒回声状态网络模型用于预测模型的性能优化。针对回声状态网络(Echo State Network, ESN)模型易受异常点影响的问题,本文提出一种基于Huber损失函数的鲁棒岭回归方法。该方法采用Huber损失函数代替对异常点较为敏感的二次损失函数,以增强网络对于异常点的抑制能力。在此基础上,采用加权最小二乘算法对原问题进行处理,将其转化为适合于贝叶斯方法求解的形式,从而简化了模型参数的求解过程。此外,本文还提出一种基于拉普拉斯先验分布的鲁棒回声状态网络模型。通过引入对异常点不敏感的拉普拉斯分布作为模型输出的先验,预测模型的鲁棒性得以提高。与此同时,为便于采用贝叶斯方法对模型参数进行自适应估计,根据边际优化方法,构建适当的替代函数,使拉普拉斯先验等价转化为易于计算的高斯形式。从而,可以借助于贝叶斯方法进行参数求解,有效地解决了由引入拉普拉斯分布所造成的求解困难的问题。