论文部分内容阅读
多年来,许多股市预测者们尝试了各种各样的模型,方法来预测股市,诸如时间序列模型,神经网络模型,复杂网络,马尔可夫以及组合预测方法等等.本文的研究内容和研究成果主要包括以下两个方面:第一,本文将数据挖掘方法中的聚类分析技术和马尔可夫模型结合起来,本文主要预测沪深两市指数连续两天的变化情况,随着预测天数的增加,状态数随预测天数呈指数增长.这时,每个状态内的数据会出现不平衡.聚类分析的目地是从数据量的选取的角度出发的,数据量的不同会导致严重的不平衡问题,所以聚类分析是为了去除不平衡问题.第二,本文从条件概率的角度定义了一个很重要的统计量即噪声信息熵.这个统计量具有非常重要的意义,就是它只跟初始状态有关,而跟下个状态无关.在此基础上,提出了一个很重要的J值函数.此函数可以用来评价在相同数据量的情况下,所建模型的噪声信息,并实证分析了J值函数和上证指数,深圳成指波动性的关系,结果显示函数J和股市波动性有很大关系,说明由此函数定义的噪声信息是有现实意义的,可以度量股市波动性的大小,给出了一种量化关系.此外还分析了函数J和模型正确性的关系,指出函数J和模型正确率没有线性关系.上述两个方面都是本文的创新之处,本文的一个很大的不足之处就是模型的预测准确度会随着数据选取的变化而不同,从数据选取的角度本文指出了数据选取最佳的年份.正因为如此,模型不具有很好的可塑性,鲁棒性,这是往后的研究者们的工作重心之所在.总体上来说,此模型对上证指数的预测比深圳成指的预测正确率要高,意义也更大.从经济学角度可以使用此模型去预测那些对上证指数影响很大的权重股,可以为投资者购买这些股票提供科学合理的投资建议,比如何时购买,何时停时,这些都是蕴含在股票市场中的奥秘.