论文部分内容阅读
随着现代科技的高速发展,人们已经步入了一个大数据时代,机器学习则成为了处理现实中纷繁复杂信息的核心技术手段。但现有机器学习算法依然存在诸多不足之处,而信息熵在机器学习中还有许多待研究的部分。面对股市中庞大的信息量,学者们也加大了将机器学习应用于金融市场的研究力度。以股价涨跌预测为背景,系统性地研究信息熵在机器学习算法中的运用,对机器学习算法的发展、国家金融和科技的发展都有着非常重要的意义。曾有学者针对实际问题提出了基于信息熵的强化学习算法、不确定性数据处理方法等,但信息熵在机器学习算法中的运用仍有很大的研究空间。本文选取了决策树算法、SVM(Support Vector Machine,支持向量机)算法、BP神经网络(Back Propagation Neural Network)、隐马尔科夫算法四种具有代表性的机器学习算法为研究对象,探索了现有研究中信息熵可应用于机器学习的方式,如:用于构建决策树的信息熵、可以用作BP神经网络中损失函数的交叉熵、可以与隐马尔科夫算法结合的最大熵原理等。基于前人的研究,本课题还创新性地结合了信息熵和SVM算法,提出了一种新型组合算法——“信息熵-SVM新型组合算法”,并介绍了这种新型算法的核心思想和操作步骤。为便于测试、对比基于信息熵改进前后的模型的性能,课题设计了股价涨跌预测实验。实验选取了浦发银行、上海机场和中信证券三支股票为标的股票,从股票每天的日交易数据中选取了四个指标作为模型的输入特征,目标是通过机器学习算法预测下一个交易日股价的涨跌情况,从而得到各模型的预测性能,最后对各模型性能进行对比分析。本文使用七种机器学习算法对三支股票进行股价涨跌预测,以预测结果与股票实际涨跌吻合度、F1值、建模所需时间、模型可解释性等为评价指标,通过模型间横向、纵向对比分析,得出了以下结论:(1)信息熵可以增强机器学习算法在实际建模中的可解释性;(2)信息熵可以作为机器学习算法建模时分析和处理数据集的工具,从而有效精简原始数据集,剔除冗余信息,提高模型的预测性能;(3)在特定应用场景中,将交叉熵引入机器学习算法中作为损失函数更为合适;(4)在机器学习算法中运用最大熵原理,可以为算法提供处理规则的方法,提高算法预测的准确度。本论文的研究为后人探索使用信息熵改进机器学习算法提供了参考,也为股市的投资者提供了一些研究股票价格规律的新算法。