论文部分内容阅读
行为金融学中的投资者情绪假设告诉我们情绪是会影响投资者的决策制定的,并在相关的实验中验证了投资者的主观情绪会对市场行情产生影响。随着大数据时代的到来,社交网络已经成为一种分享观点和表达情绪的重要场合,对海量的评论数据进行有效的量化分析可以用来实现对股指预测行为的指导。所以研究将情感分析用于股指预测的技术对探究股市波动的规律具有重要意义。由于基于数值型数据的股市预测模型很难将新闻事件引起的情绪波动考虑在内,而社交网络又为投资者情绪的量化提供了数据源,所以本文需要构造一种将在线文本评论数据与历史数据相结合的预测模型用于股市分析。本文主要通过新浪微博来获取股票投资者的博文评论,并提出了一种面向股市情感词典快速构建的情感分类算法,通过与基于监督式学习的分类算法对比选出最佳的分类器,结果表明基于情感词典的算法取得了最高的一致准确性,高达94%,其次是逻辑归回(LR)算法,准确性达90%。本文基于已经确定的情感分类算法,对投资者在线评论数据与上海综合指数(SCI)进行了关联分析,主要使用皮尔逊方法针对不同类别的情感系数与SCI收盘指数进行了可视化和相关性分析。研究结果表明最大的相关系数高达0.91,均值达0.55,由此表明基于新浪微博量化的投资者情绪与SCI收盘指数具有一定的相关性。本文在情感分类算法研究和相关性分析的基础上,提出了一种将情感系数与回归模型相结合进行SCI收盘指数预测的算法。本文使用两种最佳分类器计算的四种情感系数分别与SCI的5分钟收盘指数相结合进行多元线性回归模型的构建,并与没有使用情感系数的模型进行对比。实验结果表明收盘指数附加投资者情感系数后用于多元线性回归预测模型与没有附加时的效果相比更好一点。本文结尾说明了上述研究的局限性,并探讨了情感分析用于实际投资的挑战。