论文部分内容阅读
股市是金融市场最重要的组成部分之一,股价预测也一直都是横跨计算机科学与技术和金融经济等学科的热点研究领域。有效预测股票市场未来走势,对于个人投资者、机构投资者以及政府决策部门都具有重大现实意义。创建一个科学有效的方法来实现股票价格的精准预测是一项难度极高但却有着重要学术价值和现实应用价值的工作。制造业在国民经济中占据主要地位,乃立国之本、兴国之器和强国之基。当前我国经济正处在由高速发展向高质量发展的转型过渡时期,要完成这个历史性转变,必须依靠高端先进制造业来支撑和带动。打造具有国际竞争力的高端先进制造业,是中国增强综合国力的迫切需要,是中国确保国家安全和建成世界强国从而实现中华民族伟大复兴的必由之路。动力电池产业作为中国高端制造业的典型代表,涌现出了以比亚迪、宁德时代等为代表的掌握核心科技引领全球行业发展的高端制造示范企业。因此本文选取了动力电池产业链的24家A股上市公司作为研究对象,主要研究工作如下:1.使用爬虫技术从东方财富网股吧获取研究对象2020-2021年所有股市交易日(486个)的每日股评文本数据共计233280条(研究对象所有股票每个股市交易日随机抽取20条);从万德金融数据库获得研究对象2020年-2021年所有股市交易日(486个)涵盖每日开盘价、每日收盘价、每日盘中最高价、每日盘中最低价、每日成交额、每日成交量、每日换手率等七个指标的股价历史数据。并使用研究对象中的龙蟠科技、璞泰来、中科电气、杉杉股份四只股票2021年243个交易日的数据作为测试集,剩下的数据作为训练集。训练集与测试集的比例为11:1。划分数据集后对数据进行了预处理使之转化为即将构建的模型的要求输入格式。2.提出了使用股价历史数据提取股价特征,使用股评文本提取情感特征,并且采用特征融合手段将二者进行特征融合来制作股价预测模型的思路并以此思路构建了ALBERT&GRU-Attention模型。该模型由情感特征提取模块、股价特征提取模块和特征融合输出模块三个部分组成。情感特征提取模块基于自然语言处理预训练模型BERT的变体ALBERT.Chinese.tiny加上一个多层感知机构建组成。ALBERT.Chinese.tiny基于中文维基百科和中文百度百科等国内外大型中文语料库预训练而来,相比原生BERT模型更加适合中文自然语言处理应用,并且参数大量减少,对硬件资源的要求更小训练速度更快。股价特征提取模块基于GRU模型构建而来,特征融合输出模块使用注意力机制对提取出来的股价特征和情感特征进行特征融合并接入全连接层最终输出预测结果。3.选取MAE(平均绝对误差)、RMSE(均方根误差)、MAPE(平均绝对百分比误差)、R~2(决定系数)作为模型量化评价指标,添加真实值和预测值的对比图、真实值和预测值的残差图、训练过程中的loss变化图、训练过程中的R~2变化图作为辅助评价。4.构建了三组共十一个对比模型并使用同一数据集进行对比实验以证明ALBERT&GRU-Attention模型的有效性:构建了仅对股价历史数据建模的单一神经网络预测模型:GRU、LSTM、Bi LSTM、Transformer;构建了对股价历史数据和股评文本进行建模并使用concat方法进行简单拼接特征融合的复合预测模型:ALBERT&GRU、ALBERT&LSTM、ALBERT&Bi LSTM、ALBERT&Transformer;构建了对股价数据和股评文本进行建模并使用注意力机制进行特征融合的但股价特征提取模块非GRU的复合预测模型:ALBERT&LSTM-Attention、ALBERT&Bi LSTM-Attention、ALBERT&Transformer-Attention。最终实验结果显示最初构建的本文的主实验模型ALBERT&GRU-Attention在本文所有十二个预测模型中具有最好的预测效果,其MAE、MSE、MAPE、R~2分别达了1.73193、5.51327、0.05027、0.96565。