论文部分内容阅读
集成学习是一类重要的机器学习策略。集成学习通过构造含有多个学习器的集合,以期望获得比其中任意一个个体学习器更优的算法准确度。然而,机器学习模型的训练与使用需要消耗相应的资源,包括但不限于为完成计算任务所需的存储空间、执行时间,和耗费的能量,以及其他所需的物质与人力资源。额外的存储需求和计算成本很大程度上限制了集成学习的潜在应用。有限的计算资源成为许多集成学习方法无法回避的问题,特别是当集成规模较为庞大时,训练和使用集成模型时出现的困难和瓶颈日益显现。
集成约简是破解计算资源掣肘的有效途径。集成约简又被称为集成选择、集成修剪,是集成学习中一个活跃的研究领域。集成约简主要目的是从一个集成学习集合中筛选出部分模型组成一个子集合,进而舍弃原集合中剩余的未被选取的基学习器,利用该子集替代原有集合,用较少的资源开销在性能上(通常是预测准确度)达到所需要求。集成约简研究具有显著的应用价值与重要的理论意义。
本研究针对资源受限下集成约简与集成学习中亟待解决的几个问题展开了研究。首先设计集成约简算法以降低集成规模,从根本上减少由数量众多的基学习器产生的计算资源开销;以此算法为基础,研究阶层式集成学习算法框架,在控制集成规模的同时提高集成模型的精度和训练速度;依托该阶层式算法框架,形成直接计算多分类任务的方法,避免多次执行二分类学习器导致过多的资源开销;最后,研究集成学习系统的硬件部署方法,同时验证为资源受限条件设计的集成约简算法与学习框架。本研究主要工作和创新点具体包括:
(1)提出了一种新颖的集成约简方法。创新性的引入布尔逻辑、逻辑综合的思想与技术,先利用逻辑最小化从初始集成选取数量非常有限的个体学习器模型,再用生成的布尔函数结合这些模型,计算最终集成的整体输出。本课题从一个全新的视角探索集成学习研究,首次认识到集成约简这一重要的机器学习问题可以被系统地规划为逻辑最小化问题。实验结果表明,在确保分类预测准确率不低于Bagging算法的情况下,平均仅保留9.43%的基学习器模型,在最佳情况下能够达到大于97%的约简率,新集成规模为当前同类算法中最小。
(2)提出了一种阶层式集成学习算法框架。在训练学习阶段,算法先通过随机森林算法构建一个初始集,再通过设计的划分策略将其划分为多个较小的组,在划分后以组为单位的子集成上执行基于逻辑综合的集成约简算法,从而将最初的面向大规模初始集的集成约简问题,转换为若干个针对数量十分有限的基学习器小集合的子问题,确保逻辑综合的效果与执行效率。在使用集成学习模型做推断时,先在组内运用基学习器完成分类计算,再将各组的结果集中结合作为集成整体输出。“阶层式”为集成算法提供了一种对计算资源敏感的集成规模调控机制,能够准确的对最终集成规模的上限与下限作出预判。该集成算法显著地减少了初始集规模,且在分类准确率上超过随机森林和现有集成约简算法。
(3)提出了一种多类别分类问题的直接计算方法。一直以来,当分类器不具备直接处理多类别分类问题时,传统方法习惯于将多分类问题转化为一组二分类的子问题求解。本研究则从正面直接给出解决办法:先利用多位编码表示两个以上的数据样本类别,再对多位编码后的真值表执行多次逻辑综合生成布尔函数组,其中每个函数负责一个类别编码位的布尔值。实验结果验证了方法的可行性,在取得超过随机森林的分类准确率的同时能够实现更小的最终集成规模。
(4)提出了一种由高级程序语言向硬件描述语言自动转化的范式,能够从基于高级程序语言的决策树集成学习模型自动生成可在硬件系统部署的电路模型。实验部分从物理层面考察了包括随机森林在内的若干集成算法对硬件资源占有情况,是本课题“资源受限下”的集成学习研究的重要实践部分。前期机器学习、数据挖掘研究不乏有设计巧妙的集成约简方法,但往往止步于算法在纯软件环境的实现和验证。虽多次指出在嵌入式及边缘设备中的应用前景,却从未实现。本研究的自动转化范式不仅在真实的物理硬件系统上验证了本课题提出的算法,还具推广意义,可以与现有的绝大多数决策树集成学习研究结合,满足机器学习模型硬件实现、软硬件系统协同设计的工业应用需求。
综上所述,阶层式集成学习框架是本课题研究的核心。以此为基础的划分策略和训练方法可以有效地调控集成模型的预测准确率、存储开销、功耗、训练时间、响应速度等性能,达到资源受限下的最佳综合状态。面向多分类问题的直接计算方法使阶层式集成框架功能上更加完善。逻辑综合则是贯穿全文的关键技术。大量的软、硬件实验结果验证了本研究提出的集成算法与方法。
集成约简是破解计算资源掣肘的有效途径。集成约简又被称为集成选择、集成修剪,是集成学习中一个活跃的研究领域。集成约简主要目的是从一个集成学习集合中筛选出部分模型组成一个子集合,进而舍弃原集合中剩余的未被选取的基学习器,利用该子集替代原有集合,用较少的资源开销在性能上(通常是预测准确度)达到所需要求。集成约简研究具有显著的应用价值与重要的理论意义。
本研究针对资源受限下集成约简与集成学习中亟待解决的几个问题展开了研究。首先设计集成约简算法以降低集成规模,从根本上减少由数量众多的基学习器产生的计算资源开销;以此算法为基础,研究阶层式集成学习算法框架,在控制集成规模的同时提高集成模型的精度和训练速度;依托该阶层式算法框架,形成直接计算多分类任务的方法,避免多次执行二分类学习器导致过多的资源开销;最后,研究集成学习系统的硬件部署方法,同时验证为资源受限条件设计的集成约简算法与学习框架。本研究主要工作和创新点具体包括:
(1)提出了一种新颖的集成约简方法。创新性的引入布尔逻辑、逻辑综合的思想与技术,先利用逻辑最小化从初始集成选取数量非常有限的个体学习器模型,再用生成的布尔函数结合这些模型,计算最终集成的整体输出。本课题从一个全新的视角探索集成学习研究,首次认识到集成约简这一重要的机器学习问题可以被系统地规划为逻辑最小化问题。实验结果表明,在确保分类预测准确率不低于Bagging算法的情况下,平均仅保留9.43%的基学习器模型,在最佳情况下能够达到大于97%的约简率,新集成规模为当前同类算法中最小。
(2)提出了一种阶层式集成学习算法框架。在训练学习阶段,算法先通过随机森林算法构建一个初始集,再通过设计的划分策略将其划分为多个较小的组,在划分后以组为单位的子集成上执行基于逻辑综合的集成约简算法,从而将最初的面向大规模初始集的集成约简问题,转换为若干个针对数量十分有限的基学习器小集合的子问题,确保逻辑综合的效果与执行效率。在使用集成学习模型做推断时,先在组内运用基学习器完成分类计算,再将各组的结果集中结合作为集成整体输出。“阶层式”为集成算法提供了一种对计算资源敏感的集成规模调控机制,能够准确的对最终集成规模的上限与下限作出预判。该集成算法显著地减少了初始集规模,且在分类准确率上超过随机森林和现有集成约简算法。
(3)提出了一种多类别分类问题的直接计算方法。一直以来,当分类器不具备直接处理多类别分类问题时,传统方法习惯于将多分类问题转化为一组二分类的子问题求解。本研究则从正面直接给出解决办法:先利用多位编码表示两个以上的数据样本类别,再对多位编码后的真值表执行多次逻辑综合生成布尔函数组,其中每个函数负责一个类别编码位的布尔值。实验结果验证了方法的可行性,在取得超过随机森林的分类准确率的同时能够实现更小的最终集成规模。
(4)提出了一种由高级程序语言向硬件描述语言自动转化的范式,能够从基于高级程序语言的决策树集成学习模型自动生成可在硬件系统部署的电路模型。实验部分从物理层面考察了包括随机森林在内的若干集成算法对硬件资源占有情况,是本课题“资源受限下”的集成学习研究的重要实践部分。前期机器学习、数据挖掘研究不乏有设计巧妙的集成约简方法,但往往止步于算法在纯软件环境的实现和验证。虽多次指出在嵌入式及边缘设备中的应用前景,却从未实现。本研究的自动转化范式不仅在真实的物理硬件系统上验证了本课题提出的算法,还具推广意义,可以与现有的绝大多数决策树集成学习研究结合,满足机器学习模型硬件实现、软硬件系统协同设计的工业应用需求。
综上所述,阶层式集成学习框架是本课题研究的核心。以此为基础的划分策略和训练方法可以有效地调控集成模型的预测准确率、存储开销、功耗、训练时间、响应速度等性能,达到资源受限下的最佳综合状态。面向多分类问题的直接计算方法使阶层式集成框架功能上更加完善。逻辑综合则是贯穿全文的关键技术。大量的软、硬件实验结果验证了本研究提出的集成算法与方法。