论文部分内容阅读
Web2.0和移动互联网催生了网络上用户海量内容的生成。证券市场上的用户同样地喜欢通过社交媒体来表达自己对市场的看法和情绪,因此社交媒体近年来吸引了研究者和业界的大量关注,但是从这些社交媒体中抽取出对研究和产品有帮助的信息存在各种困难。为了有效地从社交媒体中抽取出证券市场用户的情绪信息,并且探索其对证券市场的影响,本文针对证券市场用户内容数据特点,提出了证券市场市场情绪分类算法;在市场预测方面,针对传统金融时间序列预测存在的问题,提出基于RiskReturn的金融时间序列预测算法;进而,将预测模型应用到实际交易情境下,通过量化交易分析的手段,研究其在证券市场上的表现。本文主要内容包括以下三个方面:第一,针对Web2.0时代用户数据较为混乱的特点,提出了Encoder-Decoder句表征的方式,将所有的文本映射成为高维的语义向量,通过标注数据集,训练神经网络分类模型,对海量数据进行情感分类,分类的准确率达到81.23%,并和已有的方法准确率进行比较,证明了方法的有效性,并考虑标注成本下,在不同标注量上和已有方法比较,证明了本文的分类方法在少量标注集就有优秀表现的优势,从而通过情感分类,可以做到对证券市场进行情绪监控;第二,针对传统金融时序预测分析面临的不考虑风险而只预测收益率的问题以及无法表达数据特征之间非线性关系的问题,本文将波动率作为风险度量指标,提出Risk-Return模型,同时用长短时记忆神经网络来刻画序列数据特征之间非线性关系,并且通过实验验证了Risk-Return金融时间序列模型的有效性;第三,结合市场情绪数据和金融市场预测模型,将预测结果形成量化策略,并研究其在市场上的表现,结果显示模型预测高收益-低风险的股票准确率达到59.411%,量化策略在市场上取得了优异的13.357%的年化收益率的成绩,并且各项风险指标较低。本文贡献有以下三个方面,第一,针对证券市场上用户评论数据特点提出的Encoder-Decoder+NN的证券市场用户情绪分类算法,证明了方法的有效性,能够做到市场情绪监控;第二,引入长短时记忆神经网络,对金融时间序列预测进行预测,预测结果方面,既考虑收益率又考虑风险值;第三,探索了深度学习与大数据在金融风险领域的实践以及证明了情绪对证券市场的影响并提供测量影响的方法。