论文部分内容阅读
随着经济的高速发展,股票逐步成为企业融资和个人理财的重要工具,股票价格的变化直接影响到国民经济的健康发展。股票价格的波动受到新闻事件、政策变化、经济环境等多种因素的影响。传统投资分析方法的非线性映射能力差,无法满足股价预测的需求;基于时序预测的方法仅以股票量价数据进行预测,无法充分解释股价波动的原因。有效市场假说表明:股价的波动受到新发布信息的影响。因此,本文以提高股价预测准确率为基本目标,基于神经网络建立以文本事件和量价数据驱动的股价趋势预测模型。主要的研究贡献包括:(1)为了提取新闻文本的事件类型信息,本文提出了一种新的中文事件检测模型——基于字词混合编码的多池化门卷积神经网络(简称MGCNN)。本文调研了已有的事件检测模型,并指出这些模型应用于中文文本数据集存在词语边界划分错误、同一触发词的事件分类错误等问题,本文通过对卷积神经网络的输入、卷积、池化、损失函数等多阶段的改进有效解决了上述问题。具体地说,MGCNN模型对输入文本进行字词混合编码,利用动态多池化的残差门卷积神经网络对编码后的文本进行语义建模,提取丰富的语义语法特征,并在增加复杂样本信息熵正则项的损失函数下进行训练优化,最终获得事件触发词识别和分类的结果。通过在公开的ACE2005数据集和金融新闻文本数据集上的实验,证明了提出模型的有效性。与已有的5种模型对比,触发词识别和分类的F1值分别提升了2.2%和1.5%以上,能够满足金融新闻文本事件检测的要求。(2)为了提高股价趋势预测的准确率,在获得金融文本事件类型信息后,本文提出了基于文本事件与量价数据驱动的股价趋势预测模型(简称TPM)。首先,在基本量价数据的基础上,分别建立回归模型、SDNE模型提取非可预测成交量、个股的板块信息编码等量价特征,利用LSTM对提取的特征进行建模得到市场信息编码;基于空洞门卷积神经网络和自注意力层,对金融文本事件句和事件类型进行语义建模得到事件信息编码;最后,将市场信息编码与事件信息编码融合,输入至MLP神经网络中,得到对未来股价涨跌幅的预测。通过对沪深300股票数据集的实验,证明了提出的TPM模型通过融合文本事件信息和量价数据信息,能够有效提升模型的预测性能,与其他预测模型相比,获得更高的预测准确率和收益率。