论文部分内容阅读
众所周知,互联网如今已经成为人们获取数据的主要以及首要来源,其几乎囊括人类历史所有已知信息的海量信息库存,以及查阅的简易便捷程度,方便程度是任何图书馆以及其它的信息数据库都无法比拟的。而对于互联网这个极其庞大的信息集合体,搜索引擎则是一个便捷快速的通道,以便你精准迅速地找到所需要的信息知识以及相关的一系列产品。根据中国互联网信息中心CNNIC于2016年1月29日发布的第37次《中国互联网络发展状况统计报告》,截至2015年12月,中国网民规模已经达到了6.88亿,其中手机网民规模已经达到了6.2亿。而搜索引擎作为网络信息需求方与互联网信息资源提供方的中介,搜索引擎所记录的搜索量数据,能够相当充分完全地记录下网民对于某些具体信息的需求量的波动程度。基于如此庞大的网民数量,如果搜索引擎所记录的对某些事物或者关键词的搜索量有大幅提高,则很有可能说明甚至预测这些被搜索的事物或者关键词将成为未来的热点或者社会的关注点。对此,国内外的很多研究表明,互联网的搜索数据与现实生活的对应事件高度相关。例如:搜索热映的电影、热门游戏或者受关注的音乐,失业率,对流感等疫情的报道或者是上证指数交易量等等,都是与现实世界有这密切的联系。最为典型的是,2009年Ginberg等人利用搜索数据来预测流行性疾病的传染动向,他们发现利用与流感相关的搜索数据可以很有效地预测出流感的爆发,这相比之前CDC(疾病预防控制中心)所做的预测能提前两周知道结果。伴随着互联网的极速发展, “大数据”已经成为了当下科技行业乃至整个社会的热点。如何对海量数据进行利用是当下最需要解决的问题。大数据的作用并不在于“大”,如何从天量数据中提取到有用的信息才是大数据的意义所在。否则就会像著名的经济学家路德维希·冯·米塞斯所说:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”对于金融市场来说,其市场价格可以看作市场所有投资者对其搜集到的所有相关信息的预期的集中体现。因此投资者对于金融市场信息的搜集行为对于金融市场的价格波动有着很好的相关性。根据前人的许多研究表明,投资者投资前的信息搜集行为也确实与金融市场的波动相关。而在互联网时代,绝大多数投资者搜集信息的方式都会通过网络。而搜索引擎诸如百度、谷歌等则成为了互联网的一扇大门,能很轻松将人们所需要的相关信息快速地展现在人们眼前。因此对于搜索引擎数据的研究,是我们在互联网时代对于人们搜索行为研究的最主要的途径之一。而世界上各大搜索引擎像百度、谷歌也对其关键词搜索量信息进行了统计整理,制作出诸如“百度指数”和“Google Trends"等服务,将一部分搜索量统计信息向公众公布,为人们对公众搜索行为研究、热点追踪甚至厂商对市场需求估计等提供帮助。过去对于股票市场的研究很少有将互联网行为引入,更不用说用搜索引擎统计的搜索量数据对金融市场进行预测。而正如前文所说,互联网已经成为人们获取信息最为重要的渠道,而搜索引擎则是人们在搜索互联网信息时最为有效的工具。根据前人的研究发现,通过对谷歌与金融市场相关的关键词的搜索量研究发现这些关键词搜索量的变动与金融市场波动呈现一定的联系。如Vozlyublennaia在2014年把谷歌搜索概率作为衡量投资者关注度的代理变量,研究结果发现,投资者关注度上升时,短期的股票指数收益也会随之发生明显的变化。Ding在同年利用Google Trends服务所提供的谷歌搜索量来作为衡量投资者关注度的指标,通过研究发现,搜索量的提高会显著增大股东的数量和股票的流动性。本文填补了国内通过互联网搜索行为与股票市场相关性尤其是采用搜索引擎搜索量数据研究国内股票耳机市场的空白。本文在参考前人对于搜索行为研究的基础上,筛选出与中国股票市场最为相关的关键词,并搜集其百度指数的搜索量。同时,本文采用了语义分类的方法,将有相近语义的关键词分到一个类型,例如关键词“国务院”与关键词“国家主席”更有可能出现在相同的新闻或者能表达相近信息的文章中,而不是诸如关键词“石油”或者“互联网”。因此本文把这样的关键词分到同一个类型中,并用一个最能体现其共同特点的词汇进行命名,并将这个关键词组合中的关键词搜索量进行汇总,然后通过一定的方法将这些关键词的搜索量构造出一个全新的指数用于指导未来的投资行为。例如当上一周的关键词搜索量相对于之前的移动平均搜索量有所下降时,我们可以选择在接下来的一周的第一个交易日开始买入或者卖出相应的股票或者股票指数,并在这一周收盘前做出相反的操作对冲头寸。本文采用上述的方法对2011年1月1日至2016年1月8日的上证指数进行研究,判断关键词百度指数的搜索量对于股票市场的波动是否能起到预测作用,同时也判断出不同类型的关键词搜索量的变化相对于股票市场的波动的方向,即在构造的组合百度关键词指数相对于之前的移动平均数增加时下一个交易周上证指数选择买入还是卖出能使其累计收益率更高。除了对上证指数进行研究以外,本文还考虑到某些关键词组合的语义相对于上证指数来说与对应的板块指数的相关性更高,因此本文还研究了百度关键词组合指数相对于对应的板块指数有没有预测作用。研究预测作用的时候本文将以上策略的累计收益率与买卖概率各为50%的随机买卖策略进行比较。在对百度关键词组合指数对于上证指数以及对应的板块指数的预测作用进行研究以后,本文接下来挑选出有显著预测效果的组合将其作为研究标的,考察将以上的研究方法作为交易策略是否有用。因此接下来本文将以上选出来的投资标的为上证指数的关键词组合,以及投资标的为对应的板块指数组合与同期的上证指数表现进行比较,看该交易策略能否显著优于同期上证指数的收益,并采用Fama-French三因子模型观察其是否相对于同期上证指数有显著的超额收益,从而判断以上的关键词组合指数是否为一个合格有效的交易策略。通过本文的研究可以得到以下几点结论:(1)文中所选语义组合中经济组合、金融组合、军事组合、能源组合、天气组合、美国组合和日本组合与上证指数的波动更倾向于相同方向,而政治组合、教育组合、娱乐组合和财经组合于上证指数波动更倾向于相反方向;(2)部分语义组合例如政治组合,经济组合,金融组合,军事组合,能源组合,天气组合,教育组合,娱乐组合,美国组合,日本组合和财经组合的百度关键词指数策略对于上证指数有一定的预测作用,其中部分组合在某些移动窗口下能获得远超于同期随机买卖上证指数的累计收益率实现值的1000次平均值,因此可以判断以上的百度关键词组合指数的波动对于上证指数有一定的预测作用;(3)部分语义组合例如化工板块组合,娱乐板块组合,交通板块组合,科技板块组合,军事板块组合,能源板块组合,医药板块组合,金融板块组合,农业板块组合对于其对应的行业板块指数有一定的预测作用,其中部分组合在某些移动窗口下能获得远超于同期随机买卖上证指数以及对应行业板块指数的累计收益率实现值的1000次平均值; (4)在与同期上证指数进行比较的过程中可以发现,投资标的为上证指数的百度关键词组合策略中金融组合,军事组合,天气组合,科技组合,娱乐组合,财经组合在合适的移动窗口下能显著优于同期上证指数的收益,将这些组合中在收益率在收益率最高的移动窗口下通过Fama-French三因子进行检验发现金融组合,军事组合,天气组合,娱乐组合和财经组合在各自累计收益率最高的移动窗口下都具有明显的超额收益;(5)然后在根据以上具有超额收益的组合绘制的累计收益图中发现,在186交易周至233交易周牛市期间,百度关键词组合策略的预测效应变弱,组合累计收益均劣于上证指数累计收益,而在第186交易周以前和第234交易周以后的两段熊市期间,百度关键词组合策略的预测效应较为显著,其累计收益均显著优于上证指数累计收益,推测出百度关键词指数对于上证指数的预测效应在熊市中比在牛市中更为显著;(6)最后将前文所做的板块组合与上证指数buy and hold收益率进行比较发现化工板块,娱乐板块,交通板块,科技板块,军事板块,能源板块,医药板块,有色板块,金融板块,和农业板块能显著优于同期的上证指数的累计收益,通过Fama-French三因子模型对以上结果显著进行回归发现化工板块,娱乐板块,交通板块,金融板块在各自收益率最高的移动窗口下显著具有超额收益。综合以上结果可以发现,在通过百度指数将投资者的搜索行为进行量化分析有助于对上证指数乃至对应语义的行业指数进行预测。同时构建合适的百度关键词组合不仅能很好地预测上证指数的走向,同时可以当作一个十分良好的交易策略,具有显著的超额收益。在研究中还发现百度关键词组合指数对于行业指数的预测效果并不如大盘的预测效果理想,违背人们的正常认知,同时该策略在牛市中的预测效果远不如在熊市中的预测效果显著。但由于可获得数据量,研究时限和研究成本的限制,本文并没有对以上发现进行深入的研究。