论文部分内容阅读
股票相关的舆情信息与股价波动密切相关,为了利用其来预测股价波动,需要考虑如何从股票相关的舆情信息中量化投资者的情感、如何提取新闻中的事件和如何把握情感、事件和股票之间潜在的复杂关系?因此,带着上面提到的几个问题,我们着手研究了面向股票的网络舆情信息处理与波动趋势预测,主要针对以下三方面问题:1、面向股票的网络舆情信息获取。股票相关的舆情信息分为3种:股票资讯数据(例如股票新闻、公告等)、股票行情数据(例如开盘价、收盘价等)和股票话题数据(例如帖子、博客等),其中股票资讯数据我们可以从Wind资讯金融终端获取,股票行情数据可以从TuShare (财经数据接口包)上获取,但是股票话题数据需要我们自己编写网络爬虫获取数据,因此我们设计、实现了针对东方财富股吧的分布式网络爬虫。2、近似信息去除。通过观察发现,从东方财富股吧中获取的帖子数据集和从Wind上获取的新闻数据集中都包含了很多重复或近似重复的信息。在本文的研究中,这些重复或近似重复信息的类型皆为文本,所以为了方便起见,我们将这两种信息统称为近似文本。这些近似信息的存在会对我们的研究造成干扰,因此我们提出了一种基于压缩技术的近似文本发现算法(SigNCD)。3、股票波动趋势预测。股市的运动在本质上会受到新信息的驱动,财经新闻和社会情感都会对股票市场的波动产生影响,其中我们将财经新闻中所蕴含的信息称为事件,本文研究了如何从历史股票舆情数据中提取公司事件和股民情感,并且利用张量技术建立股票波动趋势预测模型(tensor+M1+M2)。本文的研究和成果,为面向股票的网络舆情处理和波动趋势预测问题提供了很好的解决思路和解决方案,具有重要的研究价值和应用意义。