社会媒体与股票价格的数据挖掘研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:wstpxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在经济学领域,关于股票市场的研究一直都是一个热点问题,其中主要的研究途径包括公司基本分析、基于政策的分析、从技术面进行的分析和通过资金流向的分析,通过上述的种种途径对股价的走势进行预测一直是股票市场研究中面临的核心问题,不管是经济学还是其他领域的学者对其做了大量研究。
  自从三十年代Keynes提出“animal spirit”理论开始,该理论主要说人类的行为是基于直觉、倾向性和情感等因素,通过这些因素来影响他人的行为,同时其自身的行为也受他人的影响,这些因素在一定程度上促进和引导人类的行为。该理论的提出启发了大量经济学学家开始尝试新的方式进行金融领域的研究,并促发了行为经济学的基础理论的产生,并随之出现了大量的关于如何确定股价走势的研究。然而在研究的早期,绝大部分研究还是基于传统经济学理论进行的,即研究中所定义的前提中所有的股市参与者一投资者都是理性的,不带有情感同时也不受他人情绪影响的投资人。在理性投资人的概念中,所有的投资人都能理性的,并且能够对公司信息进行及时而有效的响应,从而在股市中获得利益。随后在理性投资人的概念的基础上,尤金·法玛(Eugene Fama)于1970年深化并提出的提出有效市场性假说,其中包含三种形式:弱式有效市场假说、半强式有效市场假说、强式有效市场假说。根据弱式有效市场假说,大量的学者寻求通过对公司基本面、公司规模、公司人员构成、公司利润等冷信息进行分析和量化进而研究、分析和预测股价走势。然而大部分的实验结果并不理想,不管他们进行何种方式的尝试,无论使用什么样的模型或算法对公司基本面之类的冷信息进行量化分析后,都不能得到很理想的研究结果,这是因为在现实世界中投资人是无法做到完全的理性化,他们是受他人的情感、他们的操作、他人的言论等等因素影响的,因此基于理性人的弱式有效市场假说并不能准确的用于实际股市分析。
  于此同时,对于该问题的研究,经济学领域分析的另一个分支---行为分析经济学---却取得了较好的进展。他们进行了部分实验,指出情感确实对股价能够产生影响。该结论的提出,表明实际上投资者而并非像传统经济学理论提出的那样进行股票投资操作的,在传统经济学理论下进行的研究中,投资者会根据手中所掌握的公司基本面等冷信息进行理性分析进而得出一个投资风险的结果,根据这个自身分析的结果在将手中的资金执行具体的投资操作,而同时该结论也与真实世界中经济情况一致。例如在2003至2009年期间,当新闻内容提及苹果公司前总裁史提芬身体状况不稳定的时候,即使在苹果公司基本面信息良好的情况下,股价却出现下跌的情况。同样在中国,相关政策的颁布、新产品发布相关新闻的发布等情况出现的时候,也将在某种层度上影响整个市场的走势,会出现公司基本面信息与该公司在实际股市表现中的情形不一致的情况。基于此,可以发现当投资者的情感是受到新闻或者其他媒体所包含的情绪所影响的,跟进一步来说投资人相互之间的情绪也是能够影响相应的投资操作的,这个理论在一定程度上与传统经济学理论的一些观点是不同的,这种理论能很好的解释一些传统经济学理论无法解释的一些现象,特别是基于理性投资人的一些传统经济学理论观点不能很好的解释的理论与现实会不一致的情况。于是可以假设伴随着上市公式的相关消息的发布能够对影响投资人的买入和卖出等操作,进而影响这个市场的价格。
  随着互联网技术和人民生活水平的发展,网络媒体在人们的日常生活中所占的比重也越来越高。人们获取信息、消息和新闻等资讯的来源也越来越丰富,除了各大新闻门户网站之外,而包括论坛、微博、微信等在内的社交平台也成为信息主要来源。近几年互联网技术的更进一步发展,出现了移动互联网技术,人们能通过够网络快速的获得相关消息,同时也能够通过个人终端电脑和手机、平板等各种各样的方式快速的在论坛发帖、发布微博微信对他人信息进行评论等方式达到信息的快速传播和情感分享。相对于以前来说,这些社交媒体所包含的数据信息在目前的大数据环境下焕发出自身的新光彩。以前来说,这些数据更多的只能够具有查询的功能,如公安机关查案的时候调取证据、某人是否在某时发表了不恰当的言论等,但是随着数据挖掘和人工智能领域研究的不断前进,大数据时代的带来预示着原来不具有意义的海量冗余数据能给带来新的启示,在此大量以前觉得无意义的论坛互动信息、微博、微信数据能为提供新的视界。目前发达的网络环境,也为通过数据挖掘技术对这部分数据进行其价值的挖掘和利用。通过目前的技术手段能够快速的获取新闻数据,同时也能够通过各个公司提供的公众对外结构获得论坛、微博、微信等数据,通过对这些数据进行分析和挖掘能够得到很多令人惊喜的内容,结合自然语言处理技术能后将这部分转化为计算机友好的数据形式,通过计算机进行分析统计得到结果。在此首先能想到的是是否能通过对这些数据的挖掘,挖掘出股票新闻数据和社交媒体中包含的情感因素,而这些因素又通过互联网进行相互传播并影响彼此。这种形式正如行为经济学中提出的一样,投资人之间的情绪情感因素也是起着这种作用的,那么假设也相信投资人的投资操作也是受这种作用的影响,最后在一定程度上反映到实际的股票市场中的。
  也正是基于此,想是否能够运用通过现有技术手段所获得的新闻文本数据和社交媒体数据,应用数据挖掘技术,并使用行为经济学提出的理论,来研究关于股票市场与网络新闻数据及公众情感之间的关系及其相互之间的影响。
  相对于他人的研究,本论文主要有如下相关独特的研究内容:
  首次尝试研究互联网新闻、社会媒体与股市之间的联系,特别是基于个股的研究。该论文相关实验将会针对中证100的个股,研究其股价与网络新闻与社会媒体大众情感之间的关系,并通过其对股价的预测进行相关内容的验证。
  有效的确定新闻情感极像并分析公众情感。在本论文中将会尝试提出一种新的提取情感词的算法,该算法能够自动对金融领域相关的情感词进行自动提取,形成特定于金融领域的情感词库。
  本论文共分为四部分,各部分内容如下:
  第一部分对国内外相关研究情况及本文相关研究背景进行简单介绍。首先分析国内外涉及到媒体与股价之间的关系的研究,之后简要叙述社会媒体与股价之间关系的主要研究,随后分析各学者关于公众情感和新闻情感与股价之间的关系等相关研究和及其结论,最后在前人的研究与结论之上提出本文的研究目的与论文构想,同时指出本文研究的创新点。
  第二部分对论文实验架构及相关模块、数据处理等内容进行说明。其中首先将介绍实验整体架构和数据流转等内容,之后细分介绍各个模块,其中主要模块为信息量化模块,包含新闻向量量化、公众情感量化、情感词库提取、股价短期趋势确定(主要用于情感词库提取)、预测模型等子模块。本部分主要说明本论文结构及相关数据处理、提取等算法,为下一章节实验内容的介绍提供铺垫。
  第三部分为实验内容部分,主要对整个实验内容、最优参数的确定和实现进行简述,并对实验结果及其分析进行阐述。本论文主要通过实验确定如下问题:是否通过量化新闻能够对股价走势起到较好的预测作用;是否投资人会被新闻所包含的情感信息或其他社交平台所散布的消息中所带的情感信息所影响,进而影响其投资买入卖出等操作。为了回答这些问题,本章节将会就试验环境、数据情况进行说明,随后通过试验确定最优交易预测时间、对不同产业分类预测分析、情感词提取、基于新闻与公共情感选取时候的预测模型等内容,最后将本文模型与其他金融学经典投资策略进行模拟投资对比,进而说明本文预测模型的意义。
  第四部分主要针对前一章节提到的所有实验进行总结,分析结果,得出结论。同时对本文中提到的模型总结其优势,以及不足有待提高的地方,并提出优化意见以及未来相关工作。
其他文献
期刊
会议
期刊
期刊
随着Web2.0技术的深入应用以及电子商务的越发繁荣,人们越来越倾向于在网上购买自己需要的产品,并在体验一段时间后在商家提供的产品评论平台上表达自己对产品的观点和使用感受。同时,对于消费者来讲,商品评论信息是他们在进行商品选择时一定会借鉴和参考的非常有价值的信息。对产品评论进行意见挖掘,不仅能为用户在选择商品的时候提供购买决策支持,还可以帮助销售商和生产商根据消费者对产品的体验而反馈的信息来指导产
学位
期刊
随着互联网技术的高速发展,人们在享受互联网方便快捷的同时也对信息安全的要求越来越高,信息安全领域面临着前所未有的挑战。传统的身份识别方法仅仅依赖账号密码的匹配,但却无法识别当前输入者是否为用户本人,显然这种单一的认证模式已不能适应现代人对网络安全的需求,因此身份识别问题越来越受到人们的关注。  生物特征识别技术的出现为解决身份识别问题带来了希望并渐渐走入我们的生活,它的本质就是利用了人体与生俱来或
学位
期刊
我国的证券市场已经走过了24年的历程,1990年12月19日,上海证券交易所开业,而后,深圳证券交易所相继于1991年7月3日正式开业。据中国证监会数据显示,截至2014年10月底,我国境内沪深两市上市公司(包括A、B股)数量为2584家,根据最新的统计结果显示,我国在2014年的国内生产总值达到了63.65万亿元,A股股票市值为37.11万亿元,由此可得我国的证券化率为58.3%。证券市场的稳定
学位
学位