论文部分内容阅读
股票市场的表现往往是一个国家经济发展的“晴雨表”。中国改革开放四十年来,资本市场飞速发展,砥砺奋进,已经连续多年稳居全球第二大资本市场。A股已经成为全球资本配置的重要组成部分。然而与一些发达国家股市不同,中国股市的投资者以散户为主,散户以往只能依靠新闻报道、分析报告或者一些小道消息来分析和买卖股票,缺少对市场讨论的参与。而随着近年来网络技术,尤其是移动终端的快速发展,越来越多的股民喜欢通过网络平台发表自己对股票的看法。海量的股评中所包含的情感倾向可能会对股市产生某种舆论趋势倾向的影响。因此,挖掘主流网络平台上的股民评论,对其进行情感分析,从而构建情感指数,研究其与实际大盘指数之间的相关性是很有意义的。本文首先研究投资者情绪对股市走势的影响,对相关技术理论进行阐述,然后利用Fiddler http协议调试代理工具辅助股评数据获取工作。移动端抓取到的数据一般都是JSON格式,与传统PC抓取的HTML格式数据相比,在数据获取与解析速度上有很大的优势。本文选取了A股具有代表性的沪深300指数共300只代表性股票,在当今国内最大财经门户网站平台——东方财富上,三天内抓取了这些股票的近200万条评论,大大提高了数据抓取效率。在此基础之上,增加股评置信度参数对LDA模型进行改进,实现对与股票主题无关数据的预处理,经实验验证,数据过滤效果比改进前有明显改善。朴素贝叶斯分类算法非常适合于事物正负两级分类,然而语料库的完善与否决定着分类的准确率的高低。本文针对股票领域,基于N-GRAM技术对3万条股票相关文本训练集进行分词处理和新词识别,再利用word2vec技术在HowNet情感词库基础之上进行股票领域情感词汇扩充,最终创建出股票领域专用词典。本文采用了一种基于改进的LDA模型的数据预处理模型,对评论数据进行过滤,过滤准确率近90%,有效地去除了无关评论数据。进而利用朴素贝叶斯机器学习方法,对股评测试集进行情感分类。本文在构建情感指数时引入移动平均模型,将时间因素更好地融入到情感指数构建过程中,最终将情感指数与股票波动进行相关性分析。经实验验证,通过训练集构造出来的分类器能够很好地对股评情感倾向性进行分类,并且情感指数与实际股票波动拟合效果很好。可见,构建股票领域情感词库以及引用移动平均模型构建情感指数对情感分类效果起到显著作用。