论文部分内容阅读
行为经济学家和心理学家通过实验研究和调查发现:人类的精力是有限的,并不能对周围所有的信息都关注,而是选择性地忽略对自己无用或不相关的信息数据,只重点关注对自己有价值的信息。由此,行为金融学上提出了有限注意力理论。从这种意义上来讲,注意力是一种稀缺资源,面临综合信息处理时,有限的注意力必须进行有效的分配,调动更多的注意力于更重要的事情上,减少对其他次要事情的关注度。随着互联网的高速发展,股民与网民的高度重叠,股票市场的信息结构也已经发生了深刻的变革。监管部门、上市公司、财经专家等不再是仅有的信息提供者,随着微博、微信、贴吧等自媒体的兴起,信息的发布早已是网民的基本权利。相对于普通网民,明星分析师有更多的优势和关注度,他们基于专业分析能力和与企业管理层密切关系,比二级市场投资者信息优势更加明显,精通证券市场,能够把握行业、公司趋势等,帮助投资者获得有价值的投资策略等。因此,明星分析师的自媒体言论具有更高的关注度同时,大量粉丝的跟随和模仿效应或对股价造成一定程度的波动。本文首先引用影响力评价模型,量化修正微博风云榜上在股票方面影响力前20的分析师影响力。再利用文本挖掘技术,爬取修正后影响力排名前十的分析师非结构化原始语料,然后经过文本分词、特征加权、特征选取、语义映射等一系列的预处理,将海量的文本信息清洗到较低的维度。随后利用KNN及朴素贝叶斯分类算法配合10折交叉检验得到分类效果良好的分类器,将文本全部降维并予以数字化的表示,最终得到一个均以8维向量表示的语料库,即得到一个18087行8列的矩阵。根据数值化后的明星分析师言论可以很方便地进行事件分析,本文从分析师个人影响力对股价的影响、言论所涉内容对股价的影响以及明星分析师的预测可信度三方面展开。实证结果表明个人影响力较大的分析师言论可信度同比影响力小的分析师更高;分析师对发展环境类的预测言论具有相对最高的准确率,对治理水平方面的言论对股价的拉动作用最小;当言论具有更强的类别特征时,其预测准确率会有一定程度的提高。本文的创新点可以归结为两点:一是,采用新指标,多角度对比研究,体现在对明星分析师的选取上以及从语料的内容分类角度研究。以微博为例的研究前人多直接引用微博的影响力数据,缺乏说服力,在情感挖掘文本分析方面,前人也只做简单的分类,但没有对分类结果进行更深入的经济研究。二是,本文采用文本挖掘技术,结合学科优势,拓展信息获取的深度和广度。使传统金融研究从结构化的基础研究拓宽到非结构化数据的研究,且在实证的过程中尽可能简洁易懂地讲述了具体采用的技术方法。但由于非本专业,对机器学习、统计学等方面的学习仍不够深入,因此本文所抓取的信息仍具有结构上的局限性,所采用的分类及分析方法、模型构建逻辑都较为朴素。