论文部分内容阅读
信息技术的不断发展和进步,满足了人们对于数据的存储、处理和分析方面的需求。同时,在新的技术条件下,人们对于数据的需求会加速增长并伴随新的变化。这两者的相互作用使得信息技术的发展日新月异,也导致了数据库技术、统计方法、机器学习技术以及各种人工智能技术的不断创新。在大数据时代,量化交易的发展使得定量模型与信息技术在投资领域发挥着越来越重要的作用。将机器学习与统计方法相结合,用以提高数据挖掘工作的效率和质量,正是近几年研究的热门领域之一,而这些方法正是将信息技术应用于金融领域的全新尝试。其中,利用数据挖掘技术来发展股票的交易策略,也是当前在学术界和业界研究讨论的热点。金融市场是一个受多种因素影响的庞大系统,具有非常复杂的运动规律,当金融机构和个人投资者做投资决策时,预测是主要的工作。本篇论文的研究内容便是在此背景之下,研究机器学习方法与人工智能技术、统计方法相结合的混合模型,及其在金融市场中的预测表现。 作为一种新型的机器学习方法,通用学习网络(Universal Learning Networks)提供了对复杂系统建模和控制的通用框架,它由一系列相互连接的节点所组成,节点上的激活函数是任意连续可导的非线性函数,节点与节点之间的连接可以是多样化的,每一条连接上具有任意时滞。通常,目标函数被设为网络参数连续可导的函数,而参数的学习需要通过计算目标函数关于参数的一阶甚至是高阶的导数,很显然这种学习算法不够普遍。本文将通用学习网络的目标函数扩展项Ex设置为网络参数的不可导函数,进行动态学习,并应用到金融时间序列的预测中。特别地,关于网络参数的优化,本文采用改进后的人工蜂群优化算法。人工蜂群算法是近年发展出来的群智能优化算法,它通过模仿蜂群的搜寻行为找出全局最优值。本文将同时改进算法中的扰动频率和扰动幅度,用于最小化通用学习网络不可导的目标函数。由于改进后的优化算法具有良好的搜索能力和快速的收敛速度,优化效果很好。仿真结果显示,利用动态的通用学习网络进行预测,可以获得令人满意的预测表现。该混合模型在金融领域具有很好的应用前景。 在进行股票价格预测时,首先面对的问题是如何选取那些最为影响预测精度的特征变量,然后是选取合适的预测模型。本文提出了结合小波变换、变量选择方法以及正则化的极端学习机器的混合模型,并将它用于金融时间序列的预测。预测模型分为三步:第一步,收集特征变量,主要分为三类:开盘价、收盘价、最高价、最低价以及成交量这5个时间序列的时滞项;通过小波变换将各时间序列分解后的特征变量,包含了各时间序列的低频和高频部分;常用的技术交易指标,比如MACD、RSI、ROC、EMA等等。第二步,通过变量选择方法选取重要的特征变量。本文分别使用LASSO,SCAD以及MCP这三种统计变量选择方法,比较最终选出的重要结果,这三种变量选择方法都大大降低了变量个数,而且选出的重要变量中都包含了小波分解得到的特征变量。最后一步,使用不同惩罚方法正则化极端学习机器,包括了Enet惩罚,Mnet惩罚以及SCAD+L2惩罚,为了便于比较,所有模型都选用LASSO方法选出的重要变量作为输入变量,分别比较预测股票市场价格的精确度,同时又考察模型的简洁性。为体现该模型的优越性,在实证中,选取巴西Bovespa指数、伦敦FTSE100、香港恒生指数、美国标普500以及上证综指这5个股票市场的指数,这些指数既涵盖了发达国家,又包括了发展中国家,本文在此基础之上做仿真实验并取得了较好的结果。 本文最后对高频数据进行了研究。高频时间序列信号通常具有非线性和非平稳特征,预测高频时间序列时,不仅要考虑预测模型本身的速度和精度,还要考虑如何从历史数据中提取有效的信息以提高预测精度。本文提出混合模型Wavelet-MARS-Randomforest,来预测中国HS300股指期货高频数据。首先,利用最大重叠离散小波变换,将最高价和最低价这两个外部信号分解为低频部分和高频部分,从历史数据中提取信息。其次,除了利用小波变换分解所得的特征变量,再考虑收益率序列的三个时滞项为候选输入变量。由于数量众多的输入变量会增加模型的复杂度,其中一些与目标值关联不大的变量不仅会增加模型复杂度,而且可能会影响预测精度,不必拿来做预测,本文用MARS来选择重要的变量。最后,将选取的重要变量作为随机森林的输入变量。仿真结果显示,对于大多数模型,基于小波变换的模型表现要比没有小波变换的模型更好。另外,通过选择适当的变量,混合模型Wavelet-MARS-RF比其它几个模型的表现都更好。