论文部分内容阅读
随着当前互联网技术的革新,社交媒体快速的发展,使得人们在网上可以实时在线发表自己的观点,成为了人们新的沟通方式。网络在线评论已经成为了不少人们对于自己观点的表达方式,对于证券市场来说,在网络上已经发展了不少专业的股票论坛,供人们发表自己对股票投资问题的看法。深入分析和挖掘网络平台上投资者所发布的信息,是对于投资者行为及情绪的了解方式,也是挖掘投资者情绪的基本手段。近年来,投资者情绪已经成为了股票投资中更为关注的指标之一,从早期的结构化指标到如今文本挖掘,受到了越来越多的金融企业、监管机构的注意,也逐渐成为了学者们的研究热点问题之一。本文聚焦于网络平台上的海量文本数据,通过文本挖掘对非结构化的文本数据进行提取并分析,通过对国内股票论坛平台的信息对比,选择了雪球网论坛作为本文研究投资者有限注意的基础。雪球网论坛是一个开放性的股票交流论坛,论坛中的在线评论等信息能够比较好地从一个侧面映射投资者对相关股票的即时想法。近年来国内在本文挖掘与股票预测的相关领域内有相应的研究,取得了一定的研究成果。本文在前人研究成果的基础上,主要对投资者有限注意与股票预测的关系作以研究,同时对机器学习的不同方法进行了比较。理论研究上,论文首先界定了有限注意及不同理论基础等,并在已有研究成果的基础上提出了基于文本挖掘的股票在线评论数据构建投资者有限注意指标的研究意义。从情绪分析的角度上来看,主要通过自然语言处理将所有的文本信息进行情感分类,将文本数据的情感分为积极文本、消极文本和中性文本三类。进一步,在分类处理好信息后,建立向量空间模型与情感特征模型,分别采用支持向量机回归与logistic回归两种算法对文本的分类结果进行量化处理。实际应用研究上,本文首先以采用爬虫技术从雪球网论坛上获取的上证50指数在线股票评论的文本数据为研究对象,阐述了数据的获取和预处理过程,并进一步构建了基于文本挖掘的投资者有限注意指标。同时,本文也选取的结构化数据的指标,与投资者有限注意的指标共同作为自变量,并选取上证50指数的收盘价作为因变量。接下来,本文研究了相应自变量与因变量之间的相关性,通过平稳性检验与格兰杰因果检验筛选出与因变量相关的相应指标,再通过对相应指标构建两种模型来检验不同模型下的自变量指标对股票市场预测的准确性。研究表明看涨情绪指标和普通情绪指标与股票市场收盘价具有相关性,并且基于支持向量机的投资者有限注意指数对股票市场预测的准确率更好。