论文部分内容阅读
自股票作为一种投资工具被人们所熟知后,股票市场逐步渗透进大众的生活中,并且凭借其资产配置及价格再发现等功能,在国家经济中也发挥着举足轻重的作用。越来越多的人尝试从大量的、不完整的、模糊的股票历史数据中挖掘出隐藏的、有价值的信息,从而进行股票价格的预测,并进一步在股票市场中获得较为可观的收益。然而股票数据的波动非线性性和复杂性等特性可以反映出股价的预测并不像想象中那么简单。近年来,机器学习也是迅速崛起的一个分支,它在大众传媒中的应用范围和宣传力度决定了机器学习算法在不久的将来必然可以取得巨大的进步。同时机器学习算法也凭借其归纳计算能力在股票价格领域得到广泛的应用,各类学习算法根据训练数据中的输入和输出数据拟合出相应的参数,使得其训练出的模型达到误差最小化。然而机器学习领域中的回归算法种类多样,如何在不确定未来股价走势的情况下选取适用于股票数据且预测精度较高的模型则成为现阶段下人们需要考虑和解决的问题。本文所要解决的主要问题就是对比三种有监督学习算法:支持向量机、k-最近邻回归和决策树模型在股价预测方面的精确度,包括单一模型以及结合聚类方法的组合模型。本文在回顾各种股票预测方法,详细阐述有监督学习和无监督学习相关算法内容的基础上,利用单一的支持向量机、k-最近邻回归和决策树算法对上证综指和标准普尔500指数的历史数据进行训练和测试,比较不同参数设置下三种算法的预测精度、误差值和运行效率,结果显示支持向量机搭配高斯核函数和距离加权回归的k-最近邻算法的预测精度较优。之后将三种回归算法与聚类算法进行组合,先使用无监督学习中的主成分分析和k-均值聚类对原始数据进行降维处理,再分别使用选取高斯核函数的支持向量机、距离加权回归的k-最近邻回归以及决策树算法对降维数据进行训练和预测,横向比较各个组合模型的预测结果,实验充分证明基于主成分分析的支持向量机模型和基于k-均值聚类的k-最近邻回归模型在模型评价和预测准确度方面具有明显的优势;纵向比较,结果证明大部分组合模型的预测结果优于单一模型;比较同一种回归算法组合不同聚类算法的结果,可以看出支持向量机算法对于结合主成分分析或k-均值聚类并没有太大影响,基于k-均值聚类的k-最近邻回归模型的结果准确度优于基于主成分分析的k-最近邻回归模型,基于k-均值聚类的决策树模型相比基于主成分分析的决策树模型可以得到更为准确的结果。本文的创新点在于以下两个方面:(1)本文区别于以往学者的研究方向,将无监督学习算法中的聚类算法与回归算法相结合,并将组合算法用于预测股票价格,并在此基础上从不同方向比较预测结果;(2)本文选取较新的上证综指和标准普尔500指数数据,样本数据充足且不失新鲜度,相比单一股票更具代表性,得到的结论更具信服度。