论文部分内容阅读
在大数据时代到来的当下,数据充斥着我们日常活动的方方面面,它在社会生活中扮演着极其重要的角色。在数据中我们能发现许多事物之间的内在联系,找寻有价值的信息。例如,通过对市场调研中消费者的满意调查数据,可以发现当下消费者的消费倾向然后以此调整经营策略;当教育研究者想了解某一群体学生的学习情况,可以通过平时表现、考试成绩等数据了解学生的学习情况,发掘学生存在的问题,以进一步制定相应的学习计划等等。在这些看似无用、凌乱且海量的数据中存在着极其有价值的信息等着后人发掘。同样在金融研究中,我们能在金融数据中发现经济运行的规律,成为现代金融研究中重要的实证依据。量化投资依托于传统投资理论,运用计算机高效的运算速度,提高研究的效率,以适应当前高速发展的今天,逐渐受到广大投资者的关注与喜爱。近年来,我国金融市场资金活动频繁,规模也日益壮大,如何在复杂多变的金融市场获取高额的回报率是每个金融投资者和研究者们非常关注的事情。在日常的市场活动中,研究者们不断的丰富投资理论,利用数学方法对金融数据进行有效的处理,得到了许多能反映市场变动的新指标,为广大投资者提供了非常好的参考依据,奠定了量化研究的研究热潮。新的指标和理论的创新都需要处理大量的数据,需要运用更多的数学方法等,这些都使的人们越来越关注量化投资的研究。本文以多因子选股模型作为研究的依据,旨在研究量化选股的相关理论,同时加入随机森林算法和模糊C均值聚类算法,验证新的算法能否适应市场规律同时达到提高多因子选股模型的说服力的目的。具体而言,本文选取沪深A股中流通市值排名前200的股票作为研究依据,以2009年到2017年的交易和财务数据进行预处理,选取了 15个常见的候选因子进行选股的验证,通过各因子下股票组合的累计超额收益、战胜市场基准概率、随机森林变量重要性等评价指标选取了 9个有效因子,并采用模糊C均值聚类算法的原理对有效因子聚类,在选取各类中表现最好的指标作为最终的选股依据,其他因子作为冗余因子剔除模型外;在剔除冗余后,采用等权重的方法在检验期对样本股的各有效因子进行打分,在加总各因子分数的大小,获得各样本股的综合得分的大小,选取评分20%的股票作为投资组合,检验投资组合的实际绩效表现。实证结果表明,随机森林分类原理中对变量重要性的描述非常适合有效因子的选取,通过训练各期的分类结果,统计其在整个模型期的重要性排序靠前的概率,若能较大几率其重要性都非常高,则可以说其在整个时期对收益变动的重要性非常高,在实证中大部分时期分类错误率都较低,效果显著,获得的重要的因子都能很大概率跑赢市场,因此可以作为有效因子选取的依据;模糊C均值聚类算法对因子间模糊概念的处理较好地说明金融变量间复杂的关联,其提出的隶属度概念将变量聚为某类的依据描述为变量隶属于该类的大小,最大隶属度所在的类就将其分为某类;将上述两种算法加入多因子选股模型形成的投资组合在检验期都能跑赢市场基准收益,获得了较高的超额收益,使投资者决策的参考方向更加丰富。