论文部分内容阅读
2008年全球金融危机让全球经济陷入前所未有的困境,人们意识到金融风险防范的重要性,人们迫切需要在海量的金融数据中找到反映市场本质的和规律性的特征,为金融投资提供决策支持,使投资者能做好金融危机的风险防范,从而规避和减少危机带来的损失。流形学习是近年兴起的非线性数据特征提取方法,旨在从高维数据中挖掘出数据的本质特征和内在规律,目前已成为数据挖掘、模式识别和机器学习等领域的研究热点。本文针对金融数据集的结构特点,提出了面向金融数据集的流形学习算法,在金融数据的分析和实际应用中,取得了较好的实践效果。本文的主要研究工作和创新之处如下:(1)运用流形学习的理论和思想,从空间几何的视角,挖掘高维财务数据集中内蕴的结构,从而发现财务数据中内在的、规律性的特征,提出了一种基于核熵的流形学习算法(KEML)。由于经典的流形学习算法所采用的距离度量不适合作为财务数据点间的差异度量,而且在处理数据输出时均采用线性映射函数,未能有效读取非线性的数据特征。对此,本文提出了基于Kullback-Leibler散度的距离度量,以此来衡量两个财务数据点间的差异性;并且通过核特征空间映射,有效解决了以往非线性数据的输出问题。这样,我们从高维的财务数据空间中得到了保持财务数据关系的、低维的嵌入结构,即财务数据流形,并以此作为财务分析的数据基础。实证研究表明:KEML算法能有效提取财务数据的内蕴结构,其性能优于现有的经典流形学习算法,从而提高财务预警的精度,降低了预警分析的成本;另一方面,由KEML算法进一步推导得到了财务数据集的系统熵,为股市波动性的预测提供了客观有效的数据支持。(2)提出了基于互信息的等距特征映射算法(MI-ISOMAP),运用该算法对金融时间序列数据进行去噪,提高了金融时间序列数据的预测精度。金融时间序列数据是金融系统运行的一维投影,受到多种噪声的干扰,呈非线性、非平稳的特性。传统的噪声过滤方法没有考虑金融数据的特殊性,未能有效去除和降低金融时间序列数据中的噪声干扰。本文首先通过相空间重构技术将一维的金融时间序列数据重构为反映原系统动力学行为的高维空间,然后运用本文提出的MI-ISOMAP流形学习算法提取有用信号、消除噪声,同时确定相空间的本征维数。MI-ISOMAP算法通过计算数据点间的互信息,提取了保持金融数据点间内在关系的本征结构,同时快速准确的确定了相空间的维数。实证研究表明,由于该算法能够有效降低金融时间序列的噪声干扰,使得后续关于金融时间序列的预测精度大大提高。(3)提出了一个基于流形学习的金融动力学系统的预警方法。金融市场是一个复杂的动力学系统,其动力学性质由系统内在的吸引子控制。我们提出的方法首先将一维的金融时间序列还原成高维的金融动力学系统;然后针对金融时间序列的数据点特征,提出了基于信息测度的金融动力学系统流形学习算法(IMML),通过IMML算法从高维的相空间中提取出金融动力学系统内在的吸引子流形,在该流形的基础上我们得到了金融市场临界跃迁的预警点。在预警实证分析时,进一步通过吸引子流形推导出金融动力学系统内蕴的几何特性,由此从信息几何的角度解释了股市中的“异常”现象,为金融数据分析提供了新的视角和分析思路。(4)依据流形的内蕴几何性质,推导计算出基于曲率的金融动力学系统的Lyapunov指数,据此分析财务数据流形和金融时间序列流形之间的内在关系。实证研究中,通过本文推导的Lyapunov指数,进一步发现行业子系统与金融市场整体之间的动力学关系,为金融决策提供新的量化分析依据。