论文部分内容阅读
一方面国内年轻一代的网络使用率在逐年提升,另一方面国内的股民趋于散户化、年轻化。跟踪和分析股民在各大财经网站发帖的情感情绪对于整个市场的舆情监控具有重要意义。本文利用知网、哈工大等公开的情感词典,构建基础情感词典。结合金融领域工作经验,整理汇总了金融领域情感词典。为了获取金融领域的语料数据,本文自行设计和开发了互联网定向爬虫程序,用于定向爬取东方财富网的股吧帖子,作为原始语料库。在对原始语料人工标注后,利用互信息的方式,计算语料中各个词语的SO_PMI值,结合人工判断的阈值设置,对基础的情感词典进行扩充。此外,本文还利用依存句法关系结合情感词典的方式,设计了基于依存句法的情感分析模型,分别计算依存关系组、句子、篇章以及帖子的情感强度。针对6000份测试语料进行了实验,预测平均准确率达到了69%。为了对比分析不同分类方法的准确率,本文分别利用基于词向量的朴素贝叶斯和决策树C4.5分类方法对测试语料进行训练和分类测试,对应的平均准确率都在60%以下,初步验证了本论文模型分类的有效性。最后综合应用以上工作内容,本文设计和开发了基于金融领域的情感分析系统,实现了股吧帖子的数据采集、情感极性分析的过程。为后续的金融量化分析提供了网络舆情的指标数据。