【摘 要】
:
股市一直是国民经济发展的“晴雨表”,改革开放后,随着中国经济的发展,国内各行业不断有企业通过融资上市方式谋求发展,普通群众也开始尝试通过股票买卖方式实现资产增值,股票市场在中国有了一个迅猛的发展。近几年随着互联网的迅猛发展,新闻、公告、公司研报等财经类信息铺天盖地,新闻文本所包含的事件信息和情感倾向是影响股价变动的又一重要因素。因此在传统只使用数值型因子预测股价波动的基础上加入文本分析手段来实现股
论文部分内容阅读
股市一直是国民经济发展的“晴雨表”,改革开放后,随着中国经济的发展,国内各行业不断有企业通过融资上市方式谋求发展,普通群众也开始尝试通过股票买卖方式实现资产增值,股票市场在中国有了一个迅猛的发展。近几年随着互联网的迅猛发展,新闻、公告、公司研报等财经类信息铺天盖地,新闻文本所包含的事件信息和情感倾向是影响股价变动的又一重要因素。因此在传统只使用数值型因子预测股价波动的基础上加入文本分析手段来实现股价的准确预测是越来越合理的研究新思路。国内因为金融市场开放时间较晚,进一步挖掘深度学习算法在量化投资中发挥的作用,不仅对研究深度学习算法的应用有深刻的理论意义,而且可以在预测股价波动的基础上设置合适的交易策略,进一步解决投资者所关心的收益问题。为了更好的对股价未来变动做出预测,本文提出基于新闻-宏观-股票行情数据的股价预测模型,并得出基于attention机制的LSTM模型在该数据集的优秀预测效果。本研究具有以下三个创新点:第一,尝试将新闻数据和宏观因素同时作为输入特征引入预测模型,进一步提高了预测准确率;第二,利用加入attention机制的LSTM模型拟合数据,同时比较了基于注意力的LSTM和基于时间步的LSTNet模型的表现效果,并且尝试将因变量作为单独的时间序列型自变量输入到LSTM模型,将时间序列结果与因子预测结果结合,全面提升预测效果;第三,首次提出将LSTNet模型用于基于新闻文本的股票价格预测过程,同时为进一步拟合股票数据的自身特色,将原作者2018年提出的LSTNet模型的RNN部分的转化为LSTM部分。本文在以往股票价格预测研究的基础上,提出了一种新的深度学习混合预测模型。在数据获取方面:获取宝钢股份、格力电器、贵州茅台、招商银行、中航西飞、恒瑞医药和中兴通讯7支股票10年内(2011年7月1日-2021年7月1日)股票收盘价数据。以新闻标题文本数据、宏观数据(汇率变化率、一年期国债收益率、存款准备金率变动、消费者价格指数CPI、广义货币供应量M1)和股票基础数据(开盘价、最高价、最低价、涨跌幅、成交量、成交金额、成交笔数、换手率、总市值、流通市值、市盈率、市净率、VWAP)作为输入特征。在模型建立方面:第一步,利用CNN模型和Bi-LSTM模型对新闻指标进行处理,得到新闻标题文本处理得到的新闻事件分类数据和新闻情感分数数据。第二步,将新闻分类数据和新闻情感得分数据以及宏观指标、股票自身影响指标进行归一化处理,输入到原始LSTM模型中。第三步,在原始LSTM模型中加入注意力机制attention,包括基于权重的attention-LSTM模型和基于时间步的LSTNet模型。第四步,利用LSTM模型要研究的股票收盘价时间序列数据进行拟合,将其与在第三步中表现最好的注意力LSTM模型整合作为最终预测模型。最终分析不同模型在7只股票的预测效果。在实证分析的基础上主要得出以下结论:(1)本文提出的在新闻-宏观-基础数据集上的改进LSTNet模型在测试集上表现优异,不仅体现在真实值与预测值之间数值的差异最小,并且对于数据随时间涨跌的方向预判也是最准确的。(2)改进的LSTNet模型较好的解决了LSTM模型在时间序列预测上的滞后性,可以更好地预测数据的突然变动,同时很好的捕捉了长期变动趋势。(3)要研究的收盘价数据自身的时间序列特征模型在预测中也会有显著影响,即将利用LSTM模型拟合股票收盘价得到的结果(捕捉原始数据的时序特征)与改进的LSTNet模型进行整合,模型的预测效果会进一步提升。(4)加入新闻标题文本数据处理结果的LSTNet模型比不加新闻标题文本数据处理结果的LSTNet模型预测结果相比,其预测准确率更高。说明将新闻类文本数据加入股票价格预测的思路正确,利用CNN模型进行标题事件分类和利用Bi-LSTM模型进行情感舆情分析效果较好。
其他文献
非公有制经济作为我国市场经济中的关键一环,其地位的重要性毋庸置疑,因此我们要毫不动摇的坚持、巩固和发展。在非公有制经济中,家族企业始终起着重要的作用、扮演着关键的角色,家族企业的良好发展对带动人民充分就业、巩固我国经济社会的和谐与稳定意义非凡。但是在经济市场中,家族企业与广大中小微企业的处境类似:“融资难”问题使得企业难以获得充足的资金,进而难以实现扩大化经营与多元化发展。很大一部分原因源自于社会
肺结节的早期诊断能够有效辅助医师进行肺癌前期的判别,对于预防肺癌的发生具有重要意义。临床中医师主要通过CT图像对肺结节症状进行判定。然而面对数量呈现出爆炸式增长的肺部CT图像,医师需要耗费大量时间判别才能满足临床需要,由于医师对图像认知不同,在具体判别过程中也可能存在误诊和漏诊的情况。医学图像检索技术可以从大量已有确诊病例中检索出与当前图像病理特征最相似的CT图像辅助医师进行判别和诊断,减轻医师工
近年来,科学论文出版物的数量呈现快速增长趋势,如何有效地评估一篇科学文献的学术价值或学术影响力成为了热门话题。论文被引量是常用于衡量学术论文影响力的方法之一,它反映了论文对学术界的影响,引用成为对同行工作的一种肯定。因此,许多学者将目光聚焦于对论文被引量建模,并展开预测,取得了较好的效果。但目前已有的文献中,大部分学者主要利用的都是论文或作者本身的特征,仅一小部分学者考虑到了一类非常重要的因素——
随着油气勘探程度的不断加深,低阻油层逐渐受到重视。近年来,鄂尔多斯盆地不断有低阻油藏发现,由于低阻油层成因复杂,测井响应特征多变,导致低阻油层判别困难,进而降低了整体的勘探开发效益,因此对低阻油层的成因研究及识别方法开展系统研究至关重要。本论文以鄂尔多斯盆地志丹洛河油区长6油层组为研究对象,结合地质背景,基于录、测井资料及常规物性、岩石薄片、扫描电镜、压汞、相渗、核磁共振及润湿性等岩心实验分析结果
当下我国金融风险总体处于可控状态,但经济发展仍面临下行压力,各类突发事件导致的衍生风险将不可避免地传导至银行业。为防止商业银行不良贷款率出现反弹,对商业银行开展信用风险压力测试就显得尤为必要。本文以商业银行不良贷款率为承压指标,以GDP同比增速、CPI、M2同比增速等不同层面的宏观经济变量作为压力因子,构建压力传导模型,开展了关于信用风险的宏观压力测试研究。在压力传导模型的建立上,本文选用了带时变
为了厘清鄂尔多斯盆地西部与南部长6-长4+5期沉积物源演化,从而为下一步油气勘探部署提供依据,利用碎屑锆石U-Pb测年方法,对定边和下寺湾地区延长组长6、长4+5油层组物源进行分析,结果表明:定边长6油层组、下寺湾长6油层组和长4+5油层组的样品年龄结构均为2700~2200Ma、2100~1600Ma和392~205Ma,其峰值年龄在2500Ma、1850Ma和250Ma左右,定边长4+5油层组
随着计算机技术在多媒体领域的快速发展及应用,文物图像的数量越来越多,这些也成为智慧博物馆建设的重要数据资源。但是目前在博物馆的调研过程中发现,这些图像数据并未被高效地利用起来,尤其是在图像检索方面仍停留于原始的人工标注阶段,依赖基础的文本信息进行检索。当图像质量较差或规模庞大时,人工标注工作的效果往往就显得捉襟见肘,信息标注的质量层次不齐,仅依赖文本特征词得到的图像检索结果也较差。因此,针对上述问
人类进入数字经济时代,当前数字经济已成为下一轮占据国家竞争力制高点的重要法宝。数字经济的发展一方面催生了新兴的数字产业,丰富产业的结构层次,使产业结构趋于合理化,另一方面能够促进传统产业进行技术革新和转型升级,优化要素配置效率,促进产业结构向高级形态发展。探索数字经济促进产业结构升级的路径,对走好高质量发展道路有重要意义。本研究的创新点一是采用国家统计局对数字经济的定义,基于国家统计局最新发布的数
本文以上扬子西南缘寒武系沧浪铺组为研究对象,利用沉积学和元素地球化学等方法,在详细的野外露头沉积学特征观察描述的基础上,结合岩石薄片、矿物学及主、微量元素测试数据和前人研究成果,研究沧浪铺组沉积学和地球化学特征,重建沧浪铺组沉积时期的古环境。主要取得了以下几点认识:上扬子西南缘寒武系沧浪铺组红井哨段岩石以石英砂岩和岩屑石英砂岩为主;样品中颗粒以石英和岩屑为主,其中岩屑主要为泥岩岩屑和硅质岩屑;沧浪
作为中央造山系的重要组成部分,祁连造山带保留了典型的沟-弧-盆演化体系,记录了原特提斯洋演化过程中大洋俯冲增生造山过程。因此,祁连造山带的研究对于理解增生型造山带的形成过程和重建中央造山系西段区域地质演化历史具有重要意义。目前,祁连造山带内广泛出露的前寒武纪地层的时代和构造属性仍然存在争议,同时制约了人们对于祁连造山带前寒武纪和早古生代地质演化的认识。本文通过野外地质、岩相学、地球化学、锆石U-P