基于遗传编程的演化可解释回归方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ailing770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域,获得稳定可靠的可解释机器学习模型一直是该领域研究者梦寐以求的目标。其中,决策树类算法由于其良好的可解释性因而一直占据着重要地位并被广泛应用于各种类型的机器学习任务。目前主流的决策树算法主要使用单变量模型或线性模型作为分割面模型以及叶子节点模型,然而在真实的机器学习任务中,单变量模型和线性模型可能不足以描述真实世界的变量关系。因此,探究是否能够在保留当前决策树模型可解释性的前提下,构建非线性分割面模型和非线性叶子节点模型以增强决策树模型的建模能力就成为了一个亟待研究的问题。本文针对以上问题进行了研究和探索,主要工作包括:1.针对当前决策树局部模型难以拟合非线性数据问题,本文首先提出了分段符号回归树算法。该算法使用遗传编程算法为分段线性回归树的线性局部模型构建非线性特征,并提出了一种动态划分方案调整机制以缓解错误的初始划分方案导致的模型预测性能下降问题。本文将分段符号回归树算法与其他21个符号回归和机器学习算法进行对比,实验结果表明分段符号回归树算法具有最佳的综合预测性能。2.针对当前主流随机森林算法中决策树基模型难以构建非线性分割面的问题,本文提出了演化森林算法以尝试将基于遗传编程的高阶特征工程技术扩展至随机森林领域以使得随机森林中的每个基模型都具有更强的非线性建模能力。考虑到遗传编程算法的种群演化特性,演化森林算法在演化搜索过程中动态维护一个模型存档,从而最终形成一个集成模型。本文提出的演化森林算法在117个数据集上与其他15个决策树类算法进行了对比,实验结果表明演化森林算法具有更好的效果。3.针对演化森林算法的常量叶子节点无法有效刻画非线性局部变化的问题,本文对演化森林算法和分段符号回归树算法进行了进一步的融合,提出了分段演化森林算法。具体来说,分段演化森林算法利用了演化森林算法的整体框架,即在搜索过程中动态维护存档以形成最终的集成模型,同时分段演化森林也借鉴了分段符号回归树的思想,采用基于残差的分段线性回归树替代传统回归树作为基模型。实验结果表明融合了分段符号回归树思想的分段演化森林算法相比包括演化森林算法在内的23个算法在122个数据集上具有显著更优的综合性能。
其他文献
分析型数据库通常需要在大规模数据集上高效完成复杂查询处理,主要包括查询优化和查询执行。作为现代分析型数据库最重要最核心的功能,查询处理涉及的代码范围广,处理逻辑复杂,导致测试的高成本,缺乏充分和灵活的测试可能导致在生产环境中出现严重的问题。现有针对查询执行正确性验证的工作存在负载质量不高,理想结果集(验证集)获取难度大等问题。常见的标准评测基准比如SSB、TPC-H由于缺乏数据的倾斜度和负载的多样
学位
异构多核系统由于包含不同类型的计算单元,从而可以灵活地执行不同类型的计算任务,提高了复杂嵌入式系统的计算性能。现在FPGA加速器正在被集成入异构多核系统。和通用处理器使用指令集执行任务不同,FPGA使用其上的硬件计算资源CLB(Configurable Logic Blocks)来执行任务,但是FPGA上的硬件计算资源是有限的,因此在集成FPGA的异构多核系统上调度任务时应考虑这一点。本文提出了一
学位
锂空气电池因具有极高的能量密度成为科研人员研究的热点。但是锂空气电池在实际应用中仍面临着许多困境:绝缘性的放电产物导致较高的充电过电势,从而造成库伦效率的下降;电池反应中高反应性的单线态氧(~1O2),易与电解液和电极材料发生副反应,导致电池性能衰减;空气中非氧气的成分造成锂空气电池发生复杂的反应,因而大多数锂空气电池都只能在纯O2环境下运行。本文从锂空气电池面临的实际问题出发,以阐明其副反应机理
学位
随着大数据时代的到来,数据对于企业和个人的价值已经显得越来越重要,而将数据作为商品进行交易已经成为了企业和个人所关注的焦点。但数据与传统的商品具有很多的不同点,这使得数据的交易不能够简单的套用传统的电商行业的模式,如何能够安全、公平的交易数据商品成为了业界和学界都关注的问题。在传统的电商领域中,都存在一个买卖双方都认可的中间方,例如,淘宝、亚马逊就充当了这一类角色。但在数据领域,这样的权威的中间机
学位
随着大数据时代的到来,信息量成指数型增长。推荐系统作为一种筛选信息的工具,已经成为人们日常生活中不可或缺的一部分,它可以为人们在大量的数据中筛选出他们感兴趣的信息。近些年,伴随着社交网络的兴起,融合社交关系的推荐算法引起了研究者的广泛关注。社交推荐算法通过结合用户间的社交关系,丰富了用户的偏好特征,从而为用户推荐其好友喜欢的物品集合。近年来,图卷积网络凭借着强大的图表征学习能力得到了广泛关注。基于
学位
在物联网技术广泛应用的今天,资源受限设备下的加密算法即轻量级加密算法的安全性强度受到越来越多人的关注。ARX(addition,rotation,XOR)型分组密码由于算法结构简单,软硬件实现便捷,非常适合用于保障物联网环境中的信息交互。由于ARX型结构的特殊性质,差分分析和线性分析对于ARX型密码算法都不能产生较好的攻击结果,但在众多ARX型密码算法的最好攻击结果中,差分-线性分析方法都榜上有名
学位
随着大数据时代的到来,数据存储的重要性变得越来越高,多地域备份的分布式数据库数量逐渐增加,而开发具有正确性、可扩展性和容错性的分布式数据库非常困难并且耗费人力。RAMP(Read Atomic Multi-Partition,基于读原子性的多分区)事务作为一种常见的事务,被广泛应用于分布式事务系统设计的研究中。然而,当前由RAMP开发人员提出的两个多备份RAMP事务设计PHR(Prepare-F
学位
共享单车作为一种便利环保的出行形式,近年来受到了广泛关注,而共享单车的流量预测是研究共享单车分布动态演化并对单车进行合理调度管理的关键技术,对于解决当前城市中共享单车分布不均匀的问题至关重要。但是如何准确高效地预测共享单车流量仍然是一个困难的问题,传统的流量预测方法难以处理当前海量的单车骑行数据,并且在解决较大规模地区内的时空相关性问题上还是有所欠缺。针对上述问题,本文提出一种基于时间-空间地图模
学位
超光栅是一种可以使光沿着特定的衍射级方向传播的二维光学结构。由于构成超光栅的所有纳米粒子都相同,所以超光栅的调控对象是光栅所支持的各个衍射级。近年来,对超光栅的各项研究表明,光栅方程仅仅给出超光栅能支持的所有衍射级,但无法决定一束光将具体选择哪一个衍射级作为出射方向。也就是说,光栅结构这一反映粒子阵列整体行为的元素,无法圆满解释超光栅现象,所以需要更多关注组成超光栅的每个粒子的光学性质,回归到局域
学位
构建学术知识图谱是文献检索工具和学术影响力分析等应用的基础,虽然现在已有许多构建的大型学术知识图谱和学术搜索平台,但构建知识图谱中学术实体的准确性仍然有待提升,在学术实体构建中,作者消歧、机构消歧、学术词新词发现和分类体系构建是其中比较困难的任务。针对作者消歧问题,本文提出了一种基于异构网络的无监督作者姓名消歧方法。通过对学术实体名称预处理减弱文本格式不一致的影响,用异构网络上的元路径随机游走方法
学位