论文部分内容阅读
[摘要]社交媒体中的信息是一个大数据库,通过微博搜索抓取社交媒体中投资者微博数据,利用中文语义分析技术,将该投资者情绪划分成六个等级,构建社交媒体中投资者的情绪指数,并且以同时段的股市为研究对象,基于VAR模型,运用Granger因果关系检验、脉冲响应函数,探讨社交媒体中不同程度的投资者情绪倾向与股市收益之间的预测能力和双向反馈关系。
[关键词]社交媒体;投资者情绪;股市收益;大数据
[DOI]10.13939/j.cnki.zgsc.2015.25.065
1 引 言
行为金融学认为,情绪可以深刻地影响个人的行为和决策。夏雨禾(2010)通过对438个样本的分析,对新浪微博互动的结构性要素以及发生机制进行了深入探究,研究结果发现,新浪微博是一个文化性、个人性和情绪性的互动空间。杨维(2011)从微博传播的及时性、草根性的特征出发,探讨了在网络舆情形成过程中微博起到的作用。梁坤,蒋翠清,丁勇(2013)利用特征提取等技术,抽取中文社会媒体上的干系人的话题,同时构建股票收益率的回归模型,研究中文社会媒体上千系人和话题的活动状况对股票收益率的影响。研究结果表明,中文社会媒体上不同干系人对股票收益的影响不同。而乔智和耿志民(2013)讨论了股吧对个人投资者情绪的影响研究,运用实证方法验证了个人投资者情绪与股市收益间存在的相关关系。徐琳(2013)基于微博中的投资者情绪的研究,使得让投资者知情股市收益研究,微博信息不仅反映了该信息发布者的心理和行为,同时也能够影响相关投资者的投资行为。
2 研究模型与方法
2.1 主要模型
本文采用向量自回归模型(VAR)来检验社交媒体中的投资者情绪与股市收盘价、股市成交量之间的时滞关系。VAR模型把系统中每一个内生变量作为系统中所有内生变量的滞后项的函数来构造模型,其一般形式为:
其中, 是k维内生变量向量,Yt-1(i=1,2,…,P)是滞后内生变量向量,Xt-i(i =0,1,…,r)是d维外生变量向量或滞后外生变量向量,P、r分别是内生变量和外生变量的滞后阶数。At是k*k维系数矩阵,Bi是k*d维系数矩阵,这些矩阵都是待估计的参数矩阵。εt是由k维随机误差项构成的向量,其元素相互之间可以同期相关,但不能与各自的滞后项相关以及不能与各自的滞后项相关以及不能与模型右边的变量相关。
2.2 研究方法
第一,使用深圳视界信息技术有限公司研发的网页采集软件八爪鱼数据采集系统抓取海量的微博数据。该平台以分布式云计算平台为核心,从各种不同的网站或者网页获取大量的规范化数据。第二,以天为单位归类微博数据,并且清洗不能表现投资者情绪的垃圾数据,如非原创微博或者只包含链接地址的微博等。第三,运用中文语析分析工具,分析微博中包含的情感信息,量化投资者情绪。本课题将从两个层面来分析和量化投资者情绪信息:第一个层面可以将投资者情绪分为两个维度——积极情绪倾向和消极情绪倾向;第二个层面讲积极情绪和消极情绪继续细分,可分为一般、中度和高度积极情绪倾向以及一般、中度和高度消极情绪倾向。第四,接下来我们将会把得到的数据资料用专业软件Eviews进行整理并加以分析,以便我们制作出相应的统计图表等,最终基于大数据对投资者情绪与股市收益之间的相互关系进行分析。第五,通过Granger因果关系检验,论述和验证社会情绪变化与股票市场变化确实存在相关关系。第六,使用脉冲响应函数进行股市收益走势预测的实证分析,得出投资者情绪和股市收益走势相互间的预测能力,并提出改善方案。
3 实证研究
3.1 数据来源——社交媒体中的投资者情绪数据
本文的数据来源于新浪微博平台,采用“微博搜索”的方式继续对股市相关的信息进行监测挖掘。在新浪微博界面,以股票名称为关键词,按时间搜索相应的与该只股票相关的原创微博信息。以“华谊兄弟”为实例研究对象,研究华谊兄弟公司从2014年9月19日到2015年2月28日,该公司在新浪微博的投资者情绪与股市收益之间的关系。微博的发表时间跨度为2014年9月19日至2014年12月5日,我们抓取到微博数量为1286688条。
股市收益指数样本来自上证综合指数和深圳成分指数,包括上证综合指数收盘价、日成交量和深圳成分指数的收盘价、日成交量。股票数据均使用浙江核新同花顺网络信息股份有限公司提供的同花顺软件获得的。t日上证综合指数的和深圳成分指数的股指收益率Rt的计算公式为
其中Pt为t日股指的收盘价,Pt-1为(t-l)日股指的收盘价。样本区间为2014年11月17日至2015年2月28日。
3.2 数据分析
(1)量化投资者情绪。利用ROST Content Mining(简称ROST CM)的情感分析模块对每天的微博进行情绪倾向分析。本文实验利用ROST CM分析情绪的统计结果如图1所示。
针对ROST CM对于投资者情绪的分类,将分析三段积极情绪(一般、中度、高度)和三段消极情绪(一般、中度、高度)与股市收益之间的相互影响,不使用中性情绪作为实验数据。
同时,选取该公司于2014年11月16日至2015年2月28日每天的综合指数收盘价和成交量产生的时间序列进行比较,并且,每个类别的情绪倾向数据之间也能进行比较,需要对实验数据进行Z-Score标准化处理。转化函数为:
其中,X为变量X的均值,σ为变量x的标准差。经过处理的数据符合均值为0标准差为1的标准正态分布。
(2)变量的基本描述。由于VAR模型的建立和Granger因果检验都要求使用的时间序列是平稳时间序列。表1是运用增广的迪基一福勒检验(ADF检验)各时间序列单位根的检验结果。 情绪的时间序列和股票数据的时间序列一阶差分的ADF检验的t统计量都比1%、5%、10%检验水平下的临界值小,因此可以拒绝原假设,即可以认为情绪时间序列和股票数据的时间序列一阶查分没有单位根,也即社交媒体中的投资者情绪的时间序列和股票数据的时间序列是一阶差分平稳的。
(3) Granger因果关系检验。Granger因果关系检验可以用来确定经济变量之间是否存在因果关系以及影响的方向。因此采用Granger因果关系检验分析社交媒体中的投资者情绪对股市收益的预测能力。
分别将社交媒体的投资者一般积极情绪(Pl)、中度积极情绪(P2)、高度积极情绪(P3)、一般消极情绪(Nl)、中度消极情绪(N2)、高度消极情绪(N3)指数与股市收益(SY)和股市成交量做两两检验。表2列出滞后期1阶到5阶响应的部分Granger因果关系检验结果。
可以发现,一是社交媒体上的投资者高度消极情绪倾向不是引起股市收盘价变化的Granger原因在滞后期为3时被拒绝;二是股市收盘价不是一般积极情绪倾向的Granger原因在滞后期为5时被拒绝;三是社交媒体中的投资者高度积极情绪的Granger原因在滞后期为1时被拒绝;四是社交媒体中投资者高度消极情绪倾向不是股市收盘价的Granger原因在滞后期为2时被拒绝;五是社交媒体中投资者的中度积极情绪、高度积极情绪、一般消极情绪和中度消极情绪不是股市成交量的Granger原因被拒绝,说明社交媒体中投资者较为显著的情绪是股市成交量的Granger原因;六是股市成交量不是社交媒体中投资者一般消极情绪的Granger原因被拒绝,说明股市成交量是社交媒体中投资者一般消极情绪的Granger原因。
(4)脉冲响应函数分析。脉冲响应函数用于衡量来自某个内生变量的随机扰动项的一个标准差冲击(称为“脉冲”)对VAR模型中所有内生变量当前值和未来值的影响。如图2所示,图中的横轴表示时期数,纵轴表示脉冲响应函数大小,实线为脉冲响应函数,红色虚线为正负两倍标准差偏离带(+2S.E)。
图2 (a)描述了社交媒体中投资者的高度积极情绪和高度消极情绪与股市收盘价之间的两两响应。在图2(a)中可以看到,社交媒体中的高度积极情绪,在受到股市收盘价的一个正向单位标准差冲击时,没有立即响应,在第1期中期出现响应,并在第2期内达到负向最大值,并在第6期后逐渐减弱并且趋向于0。说明股票的收盘价变动对社交媒体中的高度积极情绪只存在较短时间内的影响,并且会对社交媒体中的投资者造成一定影响,大约持续5个交易日内。
图2 (b)中,受社交媒体中投资者的高度消极情绪的一个正向单位标准差冲击时,股市收盘价第一期前期没有立即响应,在之后产生正向影响,在第3期中期达到正向最大后立即减弱,并且趋向于0。说明社交媒体中的高度消极情绪对股市收盘价只存在短期同向影响,持续在前10个交易日左右。
图2 (c)和图2(d)可以看到,股市成交量对社交媒体中投资者中度积极情绪和高度积极情绪的扰动立即做出了响应,第一期的响应大约为0.5左右且为正向。之后,股市成交量对投资者中度积极情绪和高度积极情绪的响应有所下降,并趋近于0,说明社交媒体中投资者的中度积极情绪和高度积极情绪对股市成交量存在短期同向影响,并且投资者的中度积极情绪持续时间较投资者的高度积极情绪的持续时间长。
在图2 (e)中可以看到,股市成交量对社交媒体中投资者的中度消极情绪扰动立即做出了响应,第1期的响应为0.7左右,在第2期减弱到0.2左右。之后,股市成交量对投资者的中度消极情绪的扰动开始上升,在第3期中期达到最大(为2.5左右),且为正向的。接着,股市成交量对投资者的中度消极情绪的响应有所下降,在第10期后,响应趋向于0。可见,社交媒体中的投资者中度消极情绪的变动会对股市成交量造成正向影响,且持续时间超过10期。
图2 (f)描述的是社交媒体中投资者的一般消极情绪与股市成交量的响应。从图中可以看到,社交媒体中投资者的一般消极情绪对股市成交量的扰动立即做出了负向响应。在第2期中期达到负向最大值,并在之后逐渐减弱,在第10期左右逐渐趋近于0。从中可以看出股市成交量的变动会对社交媒体中投资者的一般消极情绪造成影响,持续时间比较长,且前4期影响较为明显。
4 结论与展望
通过微博大数据搜索抓取社交媒体中投资者微博数据为样本,以同时段的股市为研究对象,利用中文语义分析技术,将该投资者情绪划分成六个等级,并且构建了社交媒体中投资者的情绪指数,并且基于VAR模型,运用Granger因果关系检验、脉冲响应函数,探讨社交媒体中不同程度的投资者情绪倾向与股市收益之间的预测能力和双向反馈关系。研究结果表明:
第一,中文社交媒体中的投资者情绪变化能够有效地反映出股市收盘价和成交量的变化。第二,社交媒体中投资者不同等级倾向的情绪对股市收盘价和股市成交量的影响是不同的。一般积极情绪对股市收益没有产生显著的影响,中度、高度积极情绪对股市收益产生短期影响,中度消极情绪对股市收益产生持续时间较长的影响。第三,股市的收盘价和成交量均会引起社交媒体中投资者不同程度的情绪变化。
结论有益于投资者以社交媒体为观察视角进行有效的投资决策和判断,同时端正投资心态和增强风险意识。同时也有益于决策者利用社交媒体提供的大量的有效信息来合理地管理股票市场。
[关键词]社交媒体;投资者情绪;股市收益;大数据
[DOI]10.13939/j.cnki.zgsc.2015.25.065
1 引 言
行为金融学认为,情绪可以深刻地影响个人的行为和决策。夏雨禾(2010)通过对438个样本的分析,对新浪微博互动的结构性要素以及发生机制进行了深入探究,研究结果发现,新浪微博是一个文化性、个人性和情绪性的互动空间。杨维(2011)从微博传播的及时性、草根性的特征出发,探讨了在网络舆情形成过程中微博起到的作用。梁坤,蒋翠清,丁勇(2013)利用特征提取等技术,抽取中文社会媒体上的干系人的话题,同时构建股票收益率的回归模型,研究中文社会媒体上千系人和话题的活动状况对股票收益率的影响。研究结果表明,中文社会媒体上不同干系人对股票收益的影响不同。而乔智和耿志民(2013)讨论了股吧对个人投资者情绪的影响研究,运用实证方法验证了个人投资者情绪与股市收益间存在的相关关系。徐琳(2013)基于微博中的投资者情绪的研究,使得让投资者知情股市收益研究,微博信息不仅反映了该信息发布者的心理和行为,同时也能够影响相关投资者的投资行为。
2 研究模型与方法
2.1 主要模型
本文采用向量自回归模型(VAR)来检验社交媒体中的投资者情绪与股市收盘价、股市成交量之间的时滞关系。VAR模型把系统中每一个内生变量作为系统中所有内生变量的滞后项的函数来构造模型,其一般形式为:
其中, 是k维内生变量向量,Yt-1(i=1,2,…,P)是滞后内生变量向量,Xt-i(i =0,1,…,r)是d维外生变量向量或滞后外生变量向量,P、r分别是内生变量和外生变量的滞后阶数。At是k*k维系数矩阵,Bi是k*d维系数矩阵,这些矩阵都是待估计的参数矩阵。εt是由k维随机误差项构成的向量,其元素相互之间可以同期相关,但不能与各自的滞后项相关以及不能与各自的滞后项相关以及不能与模型右边的变量相关。
2.2 研究方法
第一,使用深圳视界信息技术有限公司研发的网页采集软件八爪鱼数据采集系统抓取海量的微博数据。该平台以分布式云计算平台为核心,从各种不同的网站或者网页获取大量的规范化数据。第二,以天为单位归类微博数据,并且清洗不能表现投资者情绪的垃圾数据,如非原创微博或者只包含链接地址的微博等。第三,运用中文语析分析工具,分析微博中包含的情感信息,量化投资者情绪。本课题将从两个层面来分析和量化投资者情绪信息:第一个层面可以将投资者情绪分为两个维度——积极情绪倾向和消极情绪倾向;第二个层面讲积极情绪和消极情绪继续细分,可分为一般、中度和高度积极情绪倾向以及一般、中度和高度消极情绪倾向。第四,接下来我们将会把得到的数据资料用专业软件Eviews进行整理并加以分析,以便我们制作出相应的统计图表等,最终基于大数据对投资者情绪与股市收益之间的相互关系进行分析。第五,通过Granger因果关系检验,论述和验证社会情绪变化与股票市场变化确实存在相关关系。第六,使用脉冲响应函数进行股市收益走势预测的实证分析,得出投资者情绪和股市收益走势相互间的预测能力,并提出改善方案。
3 实证研究
3.1 数据来源——社交媒体中的投资者情绪数据
本文的数据来源于新浪微博平台,采用“微博搜索”的方式继续对股市相关的信息进行监测挖掘。在新浪微博界面,以股票名称为关键词,按时间搜索相应的与该只股票相关的原创微博信息。以“华谊兄弟”为实例研究对象,研究华谊兄弟公司从2014年9月19日到2015年2月28日,该公司在新浪微博的投资者情绪与股市收益之间的关系。微博的发表时间跨度为2014年9月19日至2014年12月5日,我们抓取到微博数量为1286688条。
股市收益指数样本来自上证综合指数和深圳成分指数,包括上证综合指数收盘价、日成交量和深圳成分指数的收盘价、日成交量。股票数据均使用浙江核新同花顺网络信息股份有限公司提供的同花顺软件获得的。t日上证综合指数的和深圳成分指数的股指收益率Rt的计算公式为
其中Pt为t日股指的收盘价,Pt-1为(t-l)日股指的收盘价。样本区间为2014年11月17日至2015年2月28日。
3.2 数据分析
(1)量化投资者情绪。利用ROST Content Mining(简称ROST CM)的情感分析模块对每天的微博进行情绪倾向分析。本文实验利用ROST CM分析情绪的统计结果如图1所示。
针对ROST CM对于投资者情绪的分类,将分析三段积极情绪(一般、中度、高度)和三段消极情绪(一般、中度、高度)与股市收益之间的相互影响,不使用中性情绪作为实验数据。
同时,选取该公司于2014年11月16日至2015年2月28日每天的综合指数收盘价和成交量产生的时间序列进行比较,并且,每个类别的情绪倾向数据之间也能进行比较,需要对实验数据进行Z-Score标准化处理。转化函数为:
其中,X为变量X的均值,σ为变量x的标准差。经过处理的数据符合均值为0标准差为1的标准正态分布。
(2)变量的基本描述。由于VAR模型的建立和Granger因果检验都要求使用的时间序列是平稳时间序列。表1是运用增广的迪基一福勒检验(ADF检验)各时间序列单位根的检验结果。 情绪的时间序列和股票数据的时间序列一阶差分的ADF检验的t统计量都比1%、5%、10%检验水平下的临界值小,因此可以拒绝原假设,即可以认为情绪时间序列和股票数据的时间序列一阶查分没有单位根,也即社交媒体中的投资者情绪的时间序列和股票数据的时间序列是一阶差分平稳的。
(3) Granger因果关系检验。Granger因果关系检验可以用来确定经济变量之间是否存在因果关系以及影响的方向。因此采用Granger因果关系检验分析社交媒体中的投资者情绪对股市收益的预测能力。
分别将社交媒体的投资者一般积极情绪(Pl)、中度积极情绪(P2)、高度积极情绪(P3)、一般消极情绪(Nl)、中度消极情绪(N2)、高度消极情绪(N3)指数与股市收益(SY)和股市成交量做两两检验。表2列出滞后期1阶到5阶响应的部分Granger因果关系检验结果。
可以发现,一是社交媒体上的投资者高度消极情绪倾向不是引起股市收盘价变化的Granger原因在滞后期为3时被拒绝;二是股市收盘价不是一般积极情绪倾向的Granger原因在滞后期为5时被拒绝;三是社交媒体中的投资者高度积极情绪的Granger原因在滞后期为1时被拒绝;四是社交媒体中投资者高度消极情绪倾向不是股市收盘价的Granger原因在滞后期为2时被拒绝;五是社交媒体中投资者的中度积极情绪、高度积极情绪、一般消极情绪和中度消极情绪不是股市成交量的Granger原因被拒绝,说明社交媒体中投资者较为显著的情绪是股市成交量的Granger原因;六是股市成交量不是社交媒体中投资者一般消极情绪的Granger原因被拒绝,说明股市成交量是社交媒体中投资者一般消极情绪的Granger原因。
(4)脉冲响应函数分析。脉冲响应函数用于衡量来自某个内生变量的随机扰动项的一个标准差冲击(称为“脉冲”)对VAR模型中所有内生变量当前值和未来值的影响。如图2所示,图中的横轴表示时期数,纵轴表示脉冲响应函数大小,实线为脉冲响应函数,红色虚线为正负两倍标准差偏离带(+2S.E)。
图2 (a)描述了社交媒体中投资者的高度积极情绪和高度消极情绪与股市收盘价之间的两两响应。在图2(a)中可以看到,社交媒体中的高度积极情绪,在受到股市收盘价的一个正向单位标准差冲击时,没有立即响应,在第1期中期出现响应,并在第2期内达到负向最大值,并在第6期后逐渐减弱并且趋向于0。说明股票的收盘价变动对社交媒体中的高度积极情绪只存在较短时间内的影响,并且会对社交媒体中的投资者造成一定影响,大约持续5个交易日内。
图2 (b)中,受社交媒体中投资者的高度消极情绪的一个正向单位标准差冲击时,股市收盘价第一期前期没有立即响应,在之后产生正向影响,在第3期中期达到正向最大后立即减弱,并且趋向于0。说明社交媒体中的高度消极情绪对股市收盘价只存在短期同向影响,持续在前10个交易日左右。
图2 (c)和图2(d)可以看到,股市成交量对社交媒体中投资者中度积极情绪和高度积极情绪的扰动立即做出了响应,第一期的响应大约为0.5左右且为正向。之后,股市成交量对投资者中度积极情绪和高度积极情绪的响应有所下降,并趋近于0,说明社交媒体中投资者的中度积极情绪和高度积极情绪对股市成交量存在短期同向影响,并且投资者的中度积极情绪持续时间较投资者的高度积极情绪的持续时间长。
在图2 (e)中可以看到,股市成交量对社交媒体中投资者的中度消极情绪扰动立即做出了响应,第1期的响应为0.7左右,在第2期减弱到0.2左右。之后,股市成交量对投资者的中度消极情绪的扰动开始上升,在第3期中期达到最大(为2.5左右),且为正向的。接着,股市成交量对投资者的中度消极情绪的响应有所下降,在第10期后,响应趋向于0。可见,社交媒体中的投资者中度消极情绪的变动会对股市成交量造成正向影响,且持续时间超过10期。
图2 (f)描述的是社交媒体中投资者的一般消极情绪与股市成交量的响应。从图中可以看到,社交媒体中投资者的一般消极情绪对股市成交量的扰动立即做出了负向响应。在第2期中期达到负向最大值,并在之后逐渐减弱,在第10期左右逐渐趋近于0。从中可以看出股市成交量的变动会对社交媒体中投资者的一般消极情绪造成影响,持续时间比较长,且前4期影响较为明显。
4 结论与展望
通过微博大数据搜索抓取社交媒体中投资者微博数据为样本,以同时段的股市为研究对象,利用中文语义分析技术,将该投资者情绪划分成六个等级,并且构建了社交媒体中投资者的情绪指数,并且基于VAR模型,运用Granger因果关系检验、脉冲响应函数,探讨社交媒体中不同程度的投资者情绪倾向与股市收益之间的预测能力和双向反馈关系。研究结果表明:
第一,中文社交媒体中的投资者情绪变化能够有效地反映出股市收盘价和成交量的变化。第二,社交媒体中投资者不同等级倾向的情绪对股市收盘价和股市成交量的影响是不同的。一般积极情绪对股市收益没有产生显著的影响,中度、高度积极情绪对股市收益产生短期影响,中度消极情绪对股市收益产生持续时间较长的影响。第三,股市的收盘价和成交量均会引起社交媒体中投资者不同程度的情绪变化。
结论有益于投资者以社交媒体为观察视角进行有效的投资决策和判断,同时端正投资心态和增强风险意识。同时也有益于决策者利用社交媒体提供的大量的有效信息来合理地管理股票市场。