基于投票集成学习算法的多因子量化选股方案研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:ldkkkkk54
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是现在非常流行的机器学习算法。目前,集成学习算法在许多著名的机器学习比赛中取得了很好的成绩。集成学习算法通过组建和联合多个机器学习算法来完成特定学习任务,业内它常被称为多分类器系统或基于委员会的学习,其常比单一学习器具有显著优越性。而且集成学习算法在金融市场的应用领域非常广泛,具体包括预测股票市场走势,预判金融市场风险,构建投资股市方案,处理大量高维抽象的信息等应用领域。投票集成学习算法属于集成学习算法的一种,其在预测股指方面也比单一算法优势明显。但如何利用投票集成学习算法设计选股方案,如何更加有效的应用大量的数据进行多因子量化选股,如何利用单一机器学习算法来构建基于较优基学习器组合的投票集成学习算法,关于这些重要问题的研究文献非常缺乏。本文主要研究设计基于投票集成学习算法的多因子量化选股方案,构建基于较优基学习器组合的投票集成学习算法并以期取得超额收益率。首先本文以沪深300指数成分股为选股范围,选取34个影响股票收益的因子,以股票月涨幅大于HS300指数涨幅标记为“1”,否则标记为“0”。其次用随机森林算法筛选出22个比较重要的特征因子,然后比较分析分别基于六个单一算法的多因子量化选股方案,从中筛选出四个相对优秀的单一算法。再次利用这四个算法分别构建基于11种基学习器组合的硬、软投票集成学习算法,并同时构建了11种基于朴素贝叶斯的Bagging融合算法。最后将这些方案进行比较分析,从而选出最优的多因子量化选股方案。本文研究结论表明,本文构建的基于朴素贝叶斯和支持向量机的基学习器组合的硬投票集成学习算法的多因子量化选股方案是最优的,其选股回测的总体表现比六个单一算法、基于其他基学习器组合的投票集成学习算法以及基于朴素贝叶斯的Bagging融合算法更好,同时远好于沪深300指数,在收益方面,其选股回测13个月累计总收益率高达123.5%,在风险方面,最大回撤为3.43%,在稳定性方面,回测13个月跑赢沪深300指数基准10个月。
其他文献
宫颈癌是一种高致死率的妇科疾病,严重危害着女性的健康。目前,针对宫颈细胞的处理方法的核心技术主要包括三大步骤,分别是细胞分割、特征提取和特征融合、细胞分类。传统的宫颈细胞处理方法的性能很大程度上取决于分割的准确性和手工制作特征的有效性,且任意一个环节的处理都会影响最终的检测效果。目标检测算法将目标分割和识别合二为一,不需要任何的预分割步骤,只要能够保证检测算法的有效性,就能够保证最终的检测效果,加
随着经济全球化、区域一体化的持续推进,信息网络、交通运输的飞速发展大大地压缩了城市间的时空距离,城市间交流频率增加、速度加快,原有地理空间结构被一种网络的关系所渗透和重构,大、中、小城市在不同空间尺度下互联形成了一种复杂多元的网络型空间组织形式——城市网络。以“流动空间”视角构建网络模型近年来成为城市网络主题下研究的新范式。具有定位服务的互联网应用连续、稳定地记录其用户的出行轨迹为城市网络研究提供
大自然是万物的生长之源,从古至今自然都给予了人们无尽的智慧与向往。人类从自我意识觉醒之初便一直对大自然加以学习和模仿,随着社会的不断演变与发展,人们原有的生活方式也需要随着周遭的变化而做出改变。一些不可预知灾难的发生时刻警醒着人们,使大家逐渐意识到生态环境的重要性,人与自然在某种程度上来说是不可分割的。而理想化生态设计的延伸实质上也可以理解为仿生设计,它们都是对自然界的各种形式进行学习,对生命体及
传统的新药研发面临着投入高、耗时长、成功率低的困境。根据《美国医学会杂志》提供的数据,开发新药的平均成本约为28亿美元,新药研发的平均时长约为14年。药物合成路线设计实质上是一个化学分子逆向合成问题,即如何利用化学原料库中常见的分子设计出合成路线以合成目标分子。目前药物合成路线设计的主要方法为在单步逆合成反应预测模型的基础上结合蒙特卡洛树搜索算法进行路径搜索。当前药物合成路线设计模型仍然面临诸多困
目前,大多数的公共场合都有监控摄像头的存在,如何利用这些监控视频数据来更好地方便人们的生活,成了计算机视觉领域研究者们需要思考的一个问题。我国早在21世纪初就建立了“天网系统”,那么在互联网时代下如何更加有效、更加高效地利用“天网系统”来对犯罪分子进行快速追踪和定位就成了计算机视觉领域亟需解决的问题;当幼儿在游乐园等人群密集的场所走失,如何运用监控视频大数据快速地帮助家长定位该儿童位置也是计算机视
在自然界中,手性选择是生物体进行生命活动的必不可少的规律之一。互为对映体的手性分子具有相同的化学式,但是两者具有不同的空间构型、光学活性和药理性能等。手性分子广泛存在于人体内、药物和日常化学品中,因此,开发方便、快速和灵敏的手性识别检测分析方法具有重要的研究意义。常用的手性识别研究方法主要包括色谱法,光谱法和传感器法。但这些方法存在操作复杂、灵敏度低、分子特异性差等缺点。表面增强拉曼光谱(SERS
在当前网络或通信系统中,密钥协商协议提供了安全的网络通信保证,可以说认证密钥协议就是网络信息安全的第一道防线。它可以提供多种安全服务来与多名当事人参加合同主体之间的信息交换,也可以实现通信对象的秘钥分发、ID认证和信息交换。它将认证技术和密钥协商技术相结合,实现了安全的网络通信,特别是在密码和智能卡的认证高度协商协议的研究开发中,用户可以存储信息,有效地实现网络通信、多用户游戏、共享工具广泛使用的
在实际生产生活中,人们更多地希望能够拍摄出更加清晰真实的照片,但是由于光线原因导致相机过度曝光,为了解决这一难题,提出使用超表面实现点扩散函数以及卷积神经网络来实现过曝光场景下的超分辨率成像。与此同时,不可或缺的是具有高分辨率,小焦斑的光学镜片。超表面(Metasurface)是指一种厚度小于波长的人工二维层状材料,在亚波长尺度中,能够灵活的有效调控电磁波的振幅、偏振、传播、相位等。并且其尺寸能够
当今时代,随着人工智能技术的发展,人机交互康复机器人在医疗领域方面的应用越来越广泛。相关研究表明,在面向脑卒中患者的康复治疗中,患者极易受到心理情绪方面的干扰,影响康复机器人对患者进行康复训练,因此,在心理层面上,开展患者主动进行康复训练的研究十分迫切。本文在生理信号分析的基础上开展情绪识别及其在手功能康复训练中的相关研究。以兴奋、烦躁、轻松为目标情绪,利用人体肌电和心电生理信号,研究一种基于生理
随着社会快速发展,互联网规模越来越庞大,多元化的网络应用类型层出不穷。技术的发展和应用种类的繁多满足了人们全方位的需求,同时也给网络的管理与维护带来了巨大挑战。准确高效地对网络流量进行分类是网络管理中的关键环节。由于用户更加注重数据隐私,以及加密算法的多样性与复杂性,造成了网络流量识别的困难。然而传统的流量识别模型和方法不能很好满足当前复杂场景的需求,研究探讨新的流量识别模型和方法具有重要的现实意