论文部分内容阅读
大数据时代的到来,使得互联网中数据体量巨大,数据类型丰富,其中网络中绝大多数的数据均为非结构化数据。在非结构化数据中,文本与音频、视频及图片相比,其信息价值及性价比都是相对较高的。网络文本数据中,新闻资讯作为大众获取信息的主要来源,随处可见。近些年,利用传统的结构化数据己逐渐满足不了研究需求,开始出现对如新闻文本等非结构化数据的分析和挖掘。在文本数据中,词与词之间存在着强弱不同的语义关联,本文采用的研究方法是将其转化为文本语义网络进行后续分析,利用网络信息来进行模型预测。
在理论应用上,本研究将整套方法创新性地推广到金融投资领域,选取黄金期货价格相关新闻作为实验对象。在金融投资市场,黄金期货作为一种成熟的黄金衍生品,备受投资者的青睐,其价格的变动影响着投资者的决策,同时也是投资者关注的焦点。因此,预测黄金价格成了学术界近几年的热门研究课题。
本文主要基于爬取到的黄金期货相关的新闻文本进行探索性分析,以利用非结构化的新闻文本数据来预测黄金期货价格为研究目标,一方面可将无法评估量化的关键词作为变量加入模型中,增强模型的可解释性,另一方面对关键词构成的加权文本网络进行分析,进一步将网络信息加入预测模型中,有助于模型的预测。其中具体的研究内容如下:
首先,基于Python爬虫技术从网络中爬取了近9年与黄金期货相关的新闻,和对应时间段内的黄金期货价格;接着,基于R软件文本挖掘方法,对爬虫得到的文本数据进行清洗等预处理,通过文本分析将新闻文本处理成文本词汇矩阵;进一步,基于WGCNA算法,利用文本词汇矩阵进行加权网络分析,探究网络的性质和结构,分析网络性质随时间的动态变化,并利用Gephi软件将网络结构可视化地呈现出来;最后,本研究用加入文本网络信息的SGLS-Logistic模型来预测黄金期货价格跌涨,并将其与Lasso-Logistic、MCP-Logistic模型作比较,证明其分类效果更优。
在理论应用上,本研究将整套方法创新性地推广到金融投资领域,选取黄金期货价格相关新闻作为实验对象。在金融投资市场,黄金期货作为一种成熟的黄金衍生品,备受投资者的青睐,其价格的变动影响着投资者的决策,同时也是投资者关注的焦点。因此,预测黄金价格成了学术界近几年的热门研究课题。
本文主要基于爬取到的黄金期货相关的新闻文本进行探索性分析,以利用非结构化的新闻文本数据来预测黄金期货价格为研究目标,一方面可将无法评估量化的关键词作为变量加入模型中,增强模型的可解释性,另一方面对关键词构成的加权文本网络进行分析,进一步将网络信息加入预测模型中,有助于模型的预测。其中具体的研究内容如下:
首先,基于Python爬虫技术从网络中爬取了近9年与黄金期货相关的新闻,和对应时间段内的黄金期货价格;接着,基于R软件文本挖掘方法,对爬虫得到的文本数据进行清洗等预处理,通过文本分析将新闻文本处理成文本词汇矩阵;进一步,基于WGCNA算法,利用文本词汇矩阵进行加权网络分析,探究网络的性质和结构,分析网络性质随时间的动态变化,并利用Gephi软件将网络结构可视化地呈现出来;最后,本研究用加入文本网络信息的SGLS-Logistic模型来预测黄金期货价格跌涨,并将其与Lasso-Logistic、MCP-Logistic模型作比较,证明其分类效果更优。