论文部分内容阅读
当今社会,随着信息技术的不断发展普及,社交网络和NLP技术突飞猛进,社交数据挖掘已经成为目前研究的热点,产生了很多应用,如舆情分析、产品分析、电影票房分析等等。随着金融行业的发展,社交数据应用于股票投资市场的分析研究也越来越成为一个新的热点研究领域。本文的工作就是在分析微博情感的基础上,研究股市波动情况的预测方法。本文提出了一种新的基于微博情感分析的股市预测方法,利用对微博用户数据的情感分析和对股市历史数据的分析来预测股市的波动。按照预测分析处理的过程,本文主要包括三部分研究内容:微博过滤、情感分析和股市预测。微博过滤的主要任务是完成财经类微博中的原始用户微博数据的提取和预处理。本文一种结合关键字匹配和LDA主题模型的过滤方法,该方法充分利用关键词的领域知识和主题模型的语义信息,并将微博文本映射到两个不同的空间。关键词是领域内常见且具有代表性的词汇,通常关键词能够准确地确定文本是否与领域相关。主题模型能够在语义层面解释文本的内容,并可以保证涉及某一主题的微博有很大的概率被识别出来。本文将关键词和主题模型结合起来,使所提出的模型能够在准确率和召回率之间找到一个很好的平衡。情感分析的主要任务是分析微博过滤预处理后的财经类微博的情感倾向。本文研究采用了两种不同的方法分析财经类微博的情感:基于情感词典的方法和基于统计机器学习的方法。情感词典能够很好地把握财经领域的知识,利用领域知识较为准确地反映用户微博数据的情感倾向。统计机器学习利用统计学习方法分析微博文本的情感倾向。本文将两种方法结合,从领域和语言层面对微博文本进行分析。得到每篇微博文本的情感后,本文将这些情感组织成情感指数,为股市预测提供重要的信息。股市预测的主要任务是分析未来股市的波动情况。在预测分析中,本文将用户分为两种不同的类别:大V和群众。大V用户对股市的预测性较强,可以具有较高的权重;而群众用户的预测能力较弱,但是数量较大,因此,本文将两者综合起来进行分析,兼顾大V用户较大的影响力以及大量群众用户倾向带来的影响。基于以上三部分关键技术的研究,本文最终研究设计并构建了一个基于微博情感分析的股市预测原型系统。该系统利用本文研究的方法和模型,无论在微博过滤,情感分析还是股市预测方面,都取得了良好的效果。