基于机器学习技术的金融时间序列预测方法研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:wensiuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的不断发展和进步,满足了人们对于数据的存储、处理和分析方面的需求。同时,在新的技术条件下,人们对于数据的需求会加速增长并伴随新的变化。这两者的相互作用使得信息技术的发展日新月异,也导致了数据库技术、统计方法、机器学习技术以及各种人工智能技术的不断创新。在大数据时代,量化交易的发展使得定量模型与信息技术在投资领域发挥着越来越重要的作用。将机器学习与统计方法相结合,用以提高数据挖掘工作的效率和质量,正是近几年研究的热门领域之一,而这些方法正是将信息技术应用于金融领域的全新尝试。其中,利用数据挖掘技术来发展股票的交易策略,也是当前在学术界和业界研究讨论的热点。金融市场是一个受多种因素影响的庞大系统,具有非常复杂的运动规律,当金融机构和个人投资者做投资决策时,预测是主要的工作。本篇论文的研究内容便是在此背景之下,研究机器学习方法与人工智能技术、统计方法相结合的混合模型,及其在金融市场中的预测表现。  作为一种新型的机器学习方法,通用学习网络(Universal Learning Networks)提供了对复杂系统建模和控制的通用框架,它由一系列相互连接的节点所组成,节点上的激活函数是任意连续可导的非线性函数,节点与节点之间的连接可以是多样化的,每一条连接上具有任意时滞。通常,目标函数被设为网络参数连续可导的函数,而参数的学习需要通过计算目标函数关于参数的一阶甚至是高阶的导数,很显然这种学习算法不够普遍。本文将通用学习网络的目标函数扩展项Ex设置为网络参数的不可导函数,进行动态学习,并应用到金融时间序列的预测中。特别地,关于网络参数的优化,本文采用改进后的人工蜂群优化算法。人工蜂群算法是近年发展出来的群智能优化算法,它通过模仿蜂群的搜寻行为找出全局最优值。本文将同时改进算法中的扰动频率和扰动幅度,用于最小化通用学习网络不可导的目标函数。由于改进后的优化算法具有良好的搜索能力和快速的收敛速度,优化效果很好。仿真结果显示,利用动态的通用学习网络进行预测,可以获得令人满意的预测表现。该混合模型在金融领域具有很好的应用前景。  在进行股票价格预测时,首先面对的问题是如何选取那些最为影响预测精度的特征变量,然后是选取合适的预测模型。本文提出了结合小波变换、变量选择方法以及正则化的极端学习机器的混合模型,并将它用于金融时间序列的预测。预测模型分为三步:第一步,收集特征变量,主要分为三类:开盘价、收盘价、最高价、最低价以及成交量这5个时间序列的时滞项;通过小波变换将各时间序列分解后的特征变量,包含了各时间序列的低频和高频部分;常用的技术交易指标,比如MACD、RSI、ROC、EMA等等。第二步,通过变量选择方法选取重要的特征变量。本文分别使用LASSO,SCAD以及MCP这三种统计变量选择方法,比较最终选出的重要结果,这三种变量选择方法都大大降低了变量个数,而且选出的重要变量中都包含了小波分解得到的特征变量。最后一步,使用不同惩罚方法正则化极端学习机器,包括了Enet惩罚,Mnet惩罚以及SCAD+L2惩罚,为了便于比较,所有模型都选用LASSO方法选出的重要变量作为输入变量,分别比较预测股票市场价格的精确度,同时又考察模型的简洁性。为体现该模型的优越性,在实证中,选取巴西Bovespa指数、伦敦FTSE100、香港恒生指数、美国标普500以及上证综指这5个股票市场的指数,这些指数既涵盖了发达国家,又包括了发展中国家,本文在此基础之上做仿真实验并取得了较好的结果。  本文最后对高频数据进行了研究。高频时间序列信号通常具有非线性和非平稳特征,预测高频时间序列时,不仅要考虑预测模型本身的速度和精度,还要考虑如何从历史数据中提取有效的信息以提高预测精度。本文提出混合模型Wavelet-MARS-Randomforest,来预测中国HS300股指期货高频数据。首先,利用最大重叠离散小波变换,将最高价和最低价这两个外部信号分解为低频部分和高频部分,从历史数据中提取信息。其次,除了利用小波变换分解所得的特征变量,再考虑收益率序列的三个时滞项为候选输入变量。由于数量众多的输入变量会增加模型的复杂度,其中一些与目标值关联不大的变量不仅会增加模型复杂度,而且可能会影响预测精度,不必拿来做预测,本文用MARS来选择重要的变量。最后,将选取的重要变量作为随机森林的输入变量。仿真结果显示,对于大多数模型,基于小波变换的模型表现要比没有小波变换的模型更好。另外,通过选择适当的变量,混合模型Wavelet-MARS-RF比其它几个模型的表现都更好。
其他文献
PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根
我国股票市场自20世纪90年代建立以来,发展十分迅速,在国民经济中的地位和作用日益提高。但作为新兴市场,我国股票市场一直存在股价波动过高问题,不利于股票市场健康发展和投资者
所得税是对所得进行征税,其征税对象是所得额.纳税人在一定时期内可支配的净收入,是纳税人经济福利的主要源泉,政府加给纳税人所得税负担的轻重与纳税人的可得福利成相互消长
讨论在关系数据库中利用SQL语句实现XML查询的问题.首先提出了一个利用映射信息(映射图)将带正则路径表达式的XML查询重写为一组简单路径查询的算法.该过程中的一个关键问题
改革开放以来,我国经济的快速发展,很大程度得益于制度改革和市场化改革带来的巨大制度红利和改革红利。然而,伴随着我国传统比较优势的逐渐衰减、新竞争优势的“断档”,以及前一
近年来,电子商务成为一个热门话题,引起社会各界广泛关注。电子商务作为信息时代的新的综合商务技术手段将会对社会经济的发展产生巨大的影响。电子商务涉及技术、管理、政策、法律等多方面的问题,是否能够取得成功,需要各方面的努力。电子商务为安全保密、法律制度、税收政策等提出了许多新的课题,电子商务的税收政策与税收征管倍受各国关注。 本文主要通过介绍电子商务与税收的基本知识、概述有关电子商务目前的应用状
以“八六三”项目为背景 ,在探讨应用服务器技术、组件和框架技术的基础上 ,通过结合 CORBA开放性、跨平台、跨语言的特性和 EJB业务处理能力 ,设计并实现了一个可伸缩、健壮
文章首先对中小企业的地位和作用进行了介绍.详尽地论述了中小企业的特征,随后对其在经济中的重要地位和对经济的重大贡献以及对社会发展的重要意义作了简要分析.解决了支持
房地产公司行业本身的特点加上房地产行业受国家政策影响较大,经营缺乏连续性,业绩较为不稳定.房地产行业上市公司平均净资本收益率在1994年后开始下滑,之后一直低于深、沪两
该文具体内容包括:第一部分论述了经济结构调整的背景、提出、内容、意义,可持续发展的基本内涵、基本原则、特征、目标以及将经济结构调整的目标定为可持续发展的含义和原因