基于深度学习的股票市场预测模型和评估方法研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yuanjinxing1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着全球经济一体化进程飞速发展,股票市场在全球经济中扮演着越来越重要的角色,准确的对股票市场进行预测具有重要的社会经济价值;股票市场拥有来源广泛而异质的海量数据,这样的数据特性为捕捉股票市场中的隐含规律和关联进行准确预测提出了新的挑战,其研究具有重要的学术价值。近年来,深度学习在计算机视觉、语音和自然语言处理等多个领域取得了令人瞩目的进展,展示出其具有处理各种数据类型,特别是多尺度(秒分时天周等不同时间尺度)、多源(股票市场、社交网络和门户网站等不同来源)和异质(数值、文本和图像等不同形式)数据的强大能力,为预测具有多尺度、多来源且异质特性的股票市场提供了强有力的工具。本文在深入研究股票市场预测问题的特点、广泛分析已有相关研究工作的基础上,针对股票市场预测技术的三个关键问题提出了一系列的解决方法,并在多个公开真实数据集上进行了有效性验证。具体而言,本文的主要研究工作和成果包括:针对股票数据的多尺度特性,提出了一个多尺度循环卷积网络(Multi-Scale Recurrent Convolutional Neural Network,MS-RCNN)模型进行股票市场预测。股票数据的多尺度特性是指股票市场中存在多个不同时间间隔下的数据,且其所包含的既有相关性也有相异性。综合多尺度数据能更精确的描述股票市场状态,从而更准确的预测股票市场未来动向。本文提出模型由四个层次构成:重构层,特征层、融合层和输出层。首先,重构层的作用主要是将输入的股票数值数据按不同尺度进行重构来得到多尺度股票数值数据;其次,特征层利用不同的卷积网络从各尺度股票数值数据提取特征来表示每个尺度下股票市场的状态,从而形成基于多尺度数据的股票市场状态表示;然后,融合层通过循环神经网络来捕获多尺度特征表示中的时间相关性以及不同尺度之间的互补性来得到特征的融合表示;最后,将融合表示输入到输出层得到预测结果。在三个中国股票市场的指数数据集上的实验结果表明,与已有的多个先进的基线方法相比,MS-RCNN模型在趋势分类和模拟交易中分别取得了最优的分类性能和最高累计盈利。具体来说,本文提出模型的准确率和F1值分别达到54%和55%以上,比最优基线模型在准确率和F1值提升了 2%以上。另外,在模拟交易中该模型的模拟盈利也相对不同数据集上最优基线模型提高了 2%以上(最多提升达10%)。针对股票数据的多源异质特性,提出了一种基于数值注意力(Numerical-Based Attention,NBA)的多源异质股票市场预测模型。股票市场中包含多源异质数据,其中主要有结构化的数值型数据以及非结构化的文本型数据。而这些不同来源的异质数据能够反映股票市场中不同方面的信息,并可能会对股票市场造成不同程度的影响。通常数值数据主要包含股票价格波动范围的信息,而文本数据主要包含股票价格波动趋势的信息。本文提出的NBA模型可以有效地利用数值数据和文本数据之间的关联性以及互补性来预测股票价格。该方法先将数值数据和文本数据通过多源编码模块分别编码为固定长度向量,然后利用文本向量来引导计算针对数值向量的注意力权重,从而得到混合内容向量。通过该模型处理,隐藏在文本数据中的股票趋势信息被转换为数值数据的重要性分布,也就是通过对文本数据编码来指导数值数据的选择。NBA模型可以有效地过滤噪声,充分利用文本数据中的趋势信息。为了评估本文提出的模型,分别从中证300(CSI300)和标准普尔500(Standard and Poor’s 500)两个股票市场上收集新闻语料库和数值数据建立了三个数据集。广泛的实验结果表明,相对于多个先进的基线模型,NBA在多源股票价格预测中达到了最优的分类准确率和最低的平均均方误差。具体而言,NBA模型准确率在三个数据集上分别比最优基线模型提升了 1.75%、2.60%和6.04%,在分钟级数据集上达到64.47%。针对股票预测评估中的盈利偏置问题,提出了一种平均盈利比率(Mean Profit Ratio,MPR)指标作为模型预测性能评估的指标。现有股票市场预测模型评估常用的指标包括准确率和F1值等,但这些指标在被用来评价模型从而选择最优模型时存在与模型盈利能力缺乏一致性的问题,这一问题被称为盈利偏置。例如,准确率最高的模型可能其盈利能力并不是最高。针对该问题,本文提出一种与各种不同模拟交易算法下模型盈利都能保证高度一致性的无盈利偏置的评价指标。该指标将结合每次预测的预期盈利以及每次预测的准确率来综合评价模型每次预测的平均预期盈利率。也就是说,该指标将模拟交易算法的主要考量因素纳入到评测指标中,从而达到无偏衡量模型盈利能力的效果。在四个国家的五个股票指数日级数据集上针对多个股票市场预测模型的实验表明,MPR与模型盈利能力的一致性明显优于经典分类指标,同时基于MPR选择最优模型时出现盈利偏置的概率低于经典分类指标。最后,应用上述面向多尺度、多源异质数据的股票市场预测技术,实现了一个面向中国股票市场的股票分析演示系统--天演股市分析系统。该系统具备三个功能:一是输入股票代码进行单源-多尺度的股票市场预测,二是输入股票代码进行多源-异质数据的股票市场预测,三是对上述分析结果进行评估。
其他文献
地震造成的破坏极其惨重,除了物质损失和躯体伤害之外,也给人的心理造成了巨大的冲击,易出现焦虑紧张、恐惧害怕、失去控制感、睡眠紊乱等,严重者可出现悲观抑郁,甚至自杀。危机干
顽固性呃逆是由多种病因致膈神经受激惹而引起的膈肌不自主、阵发性、规律性收缩,为持续超过24h以上的异常呼吸运动,多发生于有器质性疾病的患者。目前多数学者认为呃逆是由于
总结30例垂体瘤术后并发症的观察和护理要点。垂体瘤术后易出现尿崩症、意识障碍、消化道出血、低钠血症、盐耗综合症和感染等并发症。因此,术后要加强病情观察,严密监测生命
甲硝唑(MNZ)是一种硝基咪唑类抗生素,被广泛用于滴虫,阿米巴病,贾第鞭毛虫病和厌氧菌感染。研究发现,MNZ的溶解度高和难生物降解等性质,导致其易于在水环境中积累,积聚的MNZ具有潜在的遗传毒性和致突变、致癌和致畸作用。从而对包括人类在内的生物的健康造成潜在的危害。近年来,基于硫酸根自由基的高级氧化技术已被公认为可以有效去除具有生物毒性的难降解有机污染物的技术。本文制备FeCo_2O_4-Fe_3
妊娠期糖尿病(gestational diabetes mellitus,GDM)是指妊娠期首次发生或首次发现的不同程度的糖耐量异常,可引起一系列妊娠并发症,严重危害母婴健康。为减少GDM导致的母婴并发症,