基于投资者关注度的一种深度学习股价预测模型

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:shanghui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据行为金融学的理论,个人投资者时间精力有限,只能关注有限信息并根据关注的信息做出投资决策。我国股票市场自然人投资者占比99.6%1,市场中的绝大部分投资者关注度有限,并非能充分处理市场信息的理性人。则在预测A股市场股价时需重视投资者关注的相关情况。因此,本文以上证50指数为研究对象,探究如何使用投资者关注度对股指的收盘价进行预测。首先,为了选择合适的投资者关注度的度量方式,本文选择研究中最常用的两类投资者关注度即综合平台(百度搜索引擎)投资者关注度与股票社区(东方财富股吧、雪球网)投资者关注度,从影响股价的角度对二者进行比较。将两类关注度变动与收益率建立向量自回归模型,分析模型估计结果、收益率的脉冲响应函数及方差分解的贡献率发现:虽然股票社区投资者关注度的变动领先于综合平台投资者关注度,但相较于股票社区投资者关注度,综合平台投资者关注度对收益率的影响更加显著、持续时间更长、贡献率更大。这些区别是两平台自身特性、用户覆盖度与我国市场特性共同作用导致的。因此本文选择综合平台投资者关注度引入收盘价预测模型中,以保证模型的预测性能。其次,将成分股投资者关注度降至适合加入模型的维度。由于全部成分股投资者关注度达89个变量,维数过高,全部引入模型中将增加运算成本并可能导致过拟合问题,因此对成分股数据进行降维处理。考虑到关注度数据天然具有非负约束,因此选择能够满足降维后变量取值仍非负这一要求的非负矩阵分解(NMF)进行降维。实证表明,使用NMF降维,能保证低维新分量的可解释性。将降维后的结果加入模型中,得到的预测误差小于未降维模型、使用主成分分析降维的模型及不加入投资者关注度的模型。综上可知,对于有非负约束的高维数值型数据使用NMF方法进行降维是较为合理的选择。再次,构建新结构的股价预测组合模型并对使用降维后的数据对其进行评价。长短期记忆神经网络(Long Short Term Memory,LSTM)对非线性问题适用性强、可处理的数据量级大且能兼顾长期记忆和短期记忆性,能充分把握时间序列的特征。因此选择LSTM模型作为基础预测模型。为了进一步提高模型的预测性能,本文提出了一种新的组合模型结构,即单变量预测模型、多变量预测模型并行的组合结构,根据结构搭建了LSTM&NMF-LSTM模型。与单一神经网络模型、机器学习模型及其他结构的组合模型相比,LSTM&NMF-LSTM模型的平均绝对误差、平均绝对百分比误差、均方误差三个误差指标均最小,证明其模型预测性能最优。除此以外,本文讨论了组合模型结构对模型预测性能的影响。改变模型的LSTM循环体堆叠层数,发现由于日维度的股指收盘价预测数据量级较小,设置单层LSTM循环体即可满足预测需求。改变模型的时间窗口长度,发现时间窗口长度设为4时,模型的预测效果最好。本文创新性地比较了综合平台投资者关注度和股票社区投资者关注度两类最常用的互联网投资者关注度对股价的影响情况,为后续的股价预测提供依据。其次,本文创新性地将图像数据的降维方法NMF引入到数值型数据中,证明了NMF方法在高维非负数值型数据上的应用合理性。本文还提出了一种新的单变量预测与多变量预测并联的组合模型结构,并使用数据证明了该结构相比于其他结构的在预测精度上的提升。本文的研究有助于明确不同平台投资者关注间的区别与联系,为股价预测、变动研究等提供依据,进而有助于个体投资者进行可靠决策,有助于政府和金融监管机构正确把握投资者行为,提前调控避免投资者非理性决策造成市场剧烈波动,使金融市场的支撑作用得到充分发挥。
其他文献
肺结节的早期诊断能够有效辅助医师进行肺癌前期的判别,对于预防肺癌的发生具有重要意义。临床中医师主要通过CT图像对肺结节症状进行判定。然而面对数量呈现出爆炸式增长的肺部CT图像,医师需要耗费大量时间判别才能满足临床需要,由于医师对图像认知不同,在具体判别过程中也可能存在误诊和漏诊的情况。医学图像检索技术可以从大量已有确诊病例中检索出与当前图像病理特征最相似的CT图像辅助医师进行判别和诊断,减轻医师工
学位
近年来,科学论文出版物的数量呈现快速增长趋势,如何有效地评估一篇科学文献的学术价值或学术影响力成为了热门话题。论文被引量是常用于衡量学术论文影响力的方法之一,它反映了论文对学术界的影响,引用成为对同行工作的一种肯定。因此,许多学者将目光聚焦于对论文被引量建模,并展开预测,取得了较好的效果。但目前已有的文献中,大部分学者主要利用的都是论文或作者本身的特征,仅一小部分学者考虑到了一类非常重要的因素——
学位
随着油气勘探程度的不断加深,低阻油层逐渐受到重视。近年来,鄂尔多斯盆地不断有低阻油藏发现,由于低阻油层成因复杂,测井响应特征多变,导致低阻油层判别困难,进而降低了整体的勘探开发效益,因此对低阻油层的成因研究及识别方法开展系统研究至关重要。本论文以鄂尔多斯盆地志丹洛河油区长6油层组为研究对象,结合地质背景,基于录、测井资料及常规物性、岩石薄片、扫描电镜、压汞、相渗、核磁共振及润湿性等岩心实验分析结果
学位
当下我国金融风险总体处于可控状态,但经济发展仍面临下行压力,各类突发事件导致的衍生风险将不可避免地传导至银行业。为防止商业银行不良贷款率出现反弹,对商业银行开展信用风险压力测试就显得尤为必要。本文以商业银行不良贷款率为承压指标,以GDP同比增速、CPI、M2同比增速等不同层面的宏观经济变量作为压力因子,构建压力传导模型,开展了关于信用风险的宏观压力测试研究。在压力传导模型的建立上,本文选用了带时变
学位
为了厘清鄂尔多斯盆地西部与南部长6-长4+5期沉积物源演化,从而为下一步油气勘探部署提供依据,利用碎屑锆石U-Pb测年方法,对定边和下寺湾地区延长组长6、长4+5油层组物源进行分析,结果表明:定边长6油层组、下寺湾长6油层组和长4+5油层组的样品年龄结构均为2700~2200Ma、2100~1600Ma和392~205Ma,其峰值年龄在2500Ma、1850Ma和250Ma左右,定边长4+5油层组
学位
随着计算机技术在多媒体领域的快速发展及应用,文物图像的数量越来越多,这些也成为智慧博物馆建设的重要数据资源。但是目前在博物馆的调研过程中发现,这些图像数据并未被高效地利用起来,尤其是在图像检索方面仍停留于原始的人工标注阶段,依赖基础的文本信息进行检索。当图像质量较差或规模庞大时,人工标注工作的效果往往就显得捉襟见肘,信息标注的质量层次不齐,仅依赖文本特征词得到的图像检索结果也较差。因此,针对上述问
学位
人类进入数字经济时代,当前数字经济已成为下一轮占据国家竞争力制高点的重要法宝。数字经济的发展一方面催生了新兴的数字产业,丰富产业的结构层次,使产业结构趋于合理化,另一方面能够促进传统产业进行技术革新和转型升级,优化要素配置效率,促进产业结构向高级形态发展。探索数字经济促进产业结构升级的路径,对走好高质量发展道路有重要意义。本研究的创新点一是采用国家统计局对数字经济的定义,基于国家统计局最新发布的数
学位
本文以上扬子西南缘寒武系沧浪铺组为研究对象,利用沉积学和元素地球化学等方法,在详细的野外露头沉积学特征观察描述的基础上,结合岩石薄片、矿物学及主、微量元素测试数据和前人研究成果,研究沧浪铺组沉积学和地球化学特征,重建沧浪铺组沉积时期的古环境。主要取得了以下几点认识:上扬子西南缘寒武系沧浪铺组红井哨段岩石以石英砂岩和岩屑石英砂岩为主;样品中颗粒以石英和岩屑为主,其中岩屑主要为泥岩岩屑和硅质岩屑;沧浪
学位
作为中央造山系的重要组成部分,祁连造山带保留了典型的沟-弧-盆演化体系,记录了原特提斯洋演化过程中大洋俯冲增生造山过程。因此,祁连造山带的研究对于理解增生型造山带的形成过程和重建中央造山系西段区域地质演化历史具有重要意义。目前,祁连造山带内广泛出露的前寒武纪地层的时代和构造属性仍然存在争议,同时制约了人们对于祁连造山带前寒武纪和早古生代地质演化的认识。本文通过野外地质、岩相学、地球化学、锆石U-P
学位
股市一直是国民经济发展的“晴雨表”,改革开放后,随着中国经济的发展,国内各行业不断有企业通过融资上市方式谋求发展,普通群众也开始尝试通过股票买卖方式实现资产增值,股票市场在中国有了一个迅猛的发展。近几年随着互联网的迅猛发展,新闻、公告、公司研报等财经类信息铺天盖地,新闻文本所包含的事件信息和情感倾向是影响股价变动的又一重要因素。因此在传统只使用数值型因子预测股价波动的基础上加入文本分析手段来实现股
学位