论文部分内容阅读
自1978年改革开放以来,我国经济进入发展快车道,股票市场也随之应运而生。经济的快速发展提高了人民生活水平,人民的生活质量越来越高,手头的资金越来越多,人们已不再满足于将资金存在银行,因此人们对投资的需求不断高涨。而股票市场存在着高风险高回报的特征,一直不断的吸引人们的注意,已成为不少个体投资者的重要选择之一。由于近年来受经济危机影响,以及变幻不定的国际经济环境和我国经济结构、产业结构的升级调整,我国股票市场经常处于全球股市跌幅榜的前列,一方面是我国股票市场自身发展的先天不足,另一方面是个体投资者信息的不对称以及专业知识的缺乏等原因,导致人们对股票市场的投资往往带有非常大的盲目性和投机性,再加上近年来我国股市存在较大的暗箱操作等,因此投资者很难获得期望的投资收益。针对个体投资者,寻求一种有效的投资方法,降低人们炒股的风险,并提高人们投资的收益就显得尤为重要。在股票市场上,每时每刻都在产生大量数据,甚至精确到每笔交易,上市公司也会定期发布财务报告,如何更好的利用这些数据,结合机器学习算法,构建一个可以获得收益的量化投资策略,以减少投资者的风险,从而给投资者带来更多的收益,便成为一个非常值得研究的问题。量化投资作为主动投资管理模式的一种新方法,其在欧美国家已经发展40多年之久,而我国股票市场量化投资的发展仅仅有几年的时间,在思想、方法、技术与市场环境等很多方面与欧美国家股票市场有着非常大的差距。但我国近几年在量化投资方面也取得了很大的进步,当前我国的量化投资主要分布于大型证券公司的资产管理部门或金融工程部门、银行的资产管理部门以及近年来新成立的小规模私募基金。伴随着量化投资技术与方法的不断成熟,量化投资在我国受到越来越多的金融人才的关注。中国资本市场的巨大体量,以及日益改善的经济结构,为我国量化投资的快速发展应用提供了巨大空间。综合分析这些财务指标数据,能够在一定程度上反映一家上市公司整体的经营状况,是否具有投资价值,是否值得投资者投资,结合这些数据进行研究能够更好的帮助投资者选择优质股票。本文通过机器学习方法,研究上市公司财务指标和股票投资价值之间的内在联系,期望能充分利用这些财务数据,利用机器学习方法从中挖掘出有价值的信息,从而才能更好的做出投资选择。本文选取HS300指数的300家上市公司定期公布的年度财务报告中的财务比率指标作为输入变量,以个股赢率作为输出变量,采用XGBoost算法建立模型,其中个股赢率为二元变量,当股票一年期的涨跌幅大于HS300指数的涨跌幅时取“1”,否则便取“0”。本文选取量化选股模型预测结果较好的30只股票作为股票池,然后再运用马科维茨均值-方差模型对选定的股票池进行风险评估,由马科维茨均值-方差模型来确定股票在投资组合中的最佳权重。本文还比较了LR算法、随机森林算法、SVM算法和XGBoost四种算法的优劣,以此证明了XGBoost算法在模型预测准确度和泛化能力上是最优的,同时由于训练数据集较少,为了避免随机性导致的,本文采用模型融合的方法来确定最终的结果,以此达到优化模型的目的,提高整个量化投资策略的收益。