基于XGBoost的沪深300量化投资策略研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:lyh041899999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自1978年改革开放以来,我国经济进入发展快车道,股票市场也随之应运而生。经济的快速发展提高了人民生活水平,人民的生活质量越来越高,手头的资金越来越多,人们已不再满足于将资金存在银行,因此人们对投资的需求不断高涨。而股票市场存在着高风险高回报的特征,一直不断的吸引人们的注意,已成为不少个体投资者的重要选择之一。由于近年来受经济危机影响,以及变幻不定的国际经济环境和我国经济结构、产业结构的升级调整,我国股票市场经常处于全球股市跌幅榜的前列,一方面是我国股票市场自身发展的先天不足,另一方面是个体投资者信息的不对称以及专业知识的缺乏等原因,导致人们对股票市场的投资往往带有非常大的盲目性和投机性,再加上近年来我国股市存在较大的暗箱操作等,因此投资者很难获得期望的投资收益。针对个体投资者,寻求一种有效的投资方法,降低人们炒股的风险,并提高人们投资的收益就显得尤为重要。在股票市场上,每时每刻都在产生大量数据,甚至精确到每笔交易,上市公司也会定期发布财务报告,如何更好的利用这些数据,结合机器学习算法,构建一个可以获得收益的量化投资策略,以减少投资者的风险,从而给投资者带来更多的收益,便成为一个非常值得研究的问题。量化投资作为主动投资管理模式的一种新方法,其在欧美国家已经发展40多年之久,而我国股票市场量化投资的发展仅仅有几年的时间,在思想、方法、技术与市场环境等很多方面与欧美国家股票市场有着非常大的差距。但我国近几年在量化投资方面也取得了很大的进步,当前我国的量化投资主要分布于大型证券公司的资产管理部门或金融工程部门、银行的资产管理部门以及近年来新成立的小规模私募基金。伴随着量化投资技术与方法的不断成熟,量化投资在我国受到越来越多的金融人才的关注。中国资本市场的巨大体量,以及日益改善的经济结构,为我国量化投资的快速发展应用提供了巨大空间。综合分析这些财务指标数据,能够在一定程度上反映一家上市公司整体的经营状况,是否具有投资价值,是否值得投资者投资,结合这些数据进行研究能够更好的帮助投资者选择优质股票。本文通过机器学习方法,研究上市公司财务指标和股票投资价值之间的内在联系,期望能充分利用这些财务数据,利用机器学习方法从中挖掘出有价值的信息,从而才能更好的做出投资选择。本文选取HS300指数的300家上市公司定期公布的年度财务报告中的财务比率指标作为输入变量,以个股赢率作为输出变量,采用XGBoost算法建立模型,其中个股赢率为二元变量,当股票一年期的涨跌幅大于HS300指数的涨跌幅时取“1”,否则便取“0”。本文选取量化选股模型预测结果较好的30只股票作为股票池,然后再运用马科维茨均值-方差模型对选定的股票池进行风险评估,由马科维茨均值-方差模型来确定股票在投资组合中的最佳权重。本文还比较了LR算法、随机森林算法、SVM算法和XGBoost四种算法的优劣,以此证明了XGBoost算法在模型预测准确度和泛化能力上是最优的,同时由于训练数据集较少,为了避免随机性导致的,本文采用模型融合的方法来确定最终的结果,以此达到优化模型的目的,提高整个量化投资策略的收益。
其他文献
语文学习的过程主要是对学生进行文学素养的培养,诵读可使学生逐渐提高语文应用能力,为学生的终身学习和个性发展奠定基础。 The process of language learning mainly focu
小学生在语文学习中,既要学会解读文本的方法,又要勤于思考,才能使所学知识达到融会贯通的程度。“问”对于“学”而言,起到了引导作用,是“学”的方向与目标;反过来,“学”
利用初等方法证明了对于任意的正整数n,丢翻图(45n)x+(28n)y=(53n)z仅有x=y=z=2正整数解.
在多传感器跟踪系统中,由于存在通信延迟等因素使得跟踪滤波器的传感器到达处理中心的时序被打乱,出现无序量测的情况.本文主要采用目前国际上用的较多直接更新法,即直接用延迟到
教育不仅是让人获得知识的过程,也不仅仅是将自然人社会化的过程,教育更重要的功能是促进人的生命的发展,为每个人的生存与持续发展打好基础。为此进行语文教育探索:一、调整
轻量化是汽车工业实现可持续发展的重要途径,先进复合材料(Advanced Composite Materials,ACM)特别是碳纤维增强聚合物基复合材料具有质轻高强的性能特点,是最为重要的轻量化
高中语文阅读教学是高中语文课程中重要的一环,是教师教学的重要内容之一。在教学活动中,教师与学生都是教学活动的主体,教师是"教",学生是"学",教材则是教学活动的载体,教师
采用RNGκ-ε湍流模型与VOF多相模型对扭曲斜切型挑坎进行水气两相流三维数值模拟,模拟了挑流水舌的空中形态,水舌挑距,水舌挑高,以及水舌速度分布、湍动能k与湍动能耗散率ε
在L-smooth拓扑空间中借助于L-smooth强半闭集给出了L-smooth Sr-远域、Sr-附着点、Sr-聚点等概念,并以此为基础讨论了分子网的Sr-收敛理论,研究了它们的一些基本性质.从而,丰富
介绍了隐马尔科夫模型(HMM),并将该理论引入到煤与瓦斯运动状态预测的研究中,以工作面瓦斯浓度正常值C、瓦斯浓度峰值P、峰值浓度与正常值之比B、两次采掘前后峰值浓度之比P的非