论文部分内容阅读
集成学习是机器学习领域四个主要研究方向之一,集成是指构建一个分类器的集合,并通过基分类器预测进行(权重)投票给出新数据的分类结果。集成学习在实际问题解决上已得到了广范的应用。集成学习最早被用来提高模型性能,或者减小选择到一个差分类器的可能性。集成学习其他的应用还包括赋予决策判决以置信度、选择优化特征、数据融合、增量学习、不稳定学习和纠错。尽管集成学习还缺乏一个统一的理论框架,但关于对多个分类器的集成仍然产生了很多相关的理论,并且有许多试验也证明了这种方式的有效性。本文主要研究了以下问题:集成学习标签设计、集成误差分析、快速选择性集成,基于集成的噪声检测,聚类分割模型空间,基于ACS (Adaptive Clustering Sampling)的集成学习和基于选择性集成的增量追踪技术。(一)证明了在n维空间总可以构造出n+1个对称矢量,并以此为基础提出了矢量标签的概念,基于矢量标签实现了多数投票法和平均法的统一,这一特点使得用于解决二分类问题的集成学习算法都可以自动升级为多分类算法。对Korgh 1995年关于集成学习的误差分析理论作了进一步深入,从实验和理论上说明了集成学习的性能除了取决于基分类器之间的差异度,同时不能忽视基分类器个体的性能。实验证明增大基分类器规模和提高基分类器性能可以明显提高选择性集成的性能。并相应设计了排序Bagging (Bootstrap aggregating)算法和随机化Bagging算法,这两种算法只需增加很小的附加运算量就可以在某些数据集上提升Bagging算法的性能。(二)打破原有选择性集成算法只考虑差异度的思路,提出从同质化的角度研究选择性集成。设计算法,分别从同质化角度以及同质化结合差异化角度进行选择性集成,在个别数据集上其性能接近和超过GASEN (Genetic Algorithm Selective ENsemble)算法。提出层次化修剪技术,解决了大规模基分类器的选择性集成问题,以此为基础进一步提出了快速选择性集成算法。该算法选择性集成速度较GASEN和CLU_ENN (CLUstering Ensembles of Neural Network)要快得多。并且该算法具备并行处理能力,在目前并行计算已非常廉价的前提下具有较强的应用价值。(三)提出了基于聚类和Boosting的Bagging修剪算法,进一步提出了基于聚类选择的AdaBoost (Adaptive Boost)加速算法,这两种算法在基分类器集合规模较大时性能都可以接近AdaBoost算法,同时训练时间要少一个数量级。基于Boosting检测噪声试验,提出了“伪噪声”概念,并分析了在噪声剔除过程中各类误删和漏删情况以及相应的后果。进而提出基于Cascade的噪声删除策略和弱Boosting算法来增强对噪声的检测能力。最后结合K-NN算法、Boosting算法和Cascade技术提出了全新的噪声删除算法,性能优异,且速度明显快于AdaBoost。(四)基于“分而治之”和“拼贴”思想分析集成学习,以此为基础提出了使用聚类分割数据模型空间的思想,并说明此时的聚类与传统聚类两者的异同。基于“分而治之”以及对Bootstrap技术和AdaBoost技术的分析,引入ACS采样技术,并对其作适当调整以适应机器学习。使得弱分类器不再是进行盲目学习而是能够进行有目的学习,也即通过ACS采样技术,结合矢量标签我们可以控制弱分类器的学习行为。进一步提出了ACS-Randomization算法,该算法仅通过调节参数就可以实现Bagging, Randomization, Random-Bagging等算法。通过调节参数,可以使得该算法可以在不同类型的数据集上都获得较为理想的效果,也即可以针对不同类型数据集调节相应的学习强度和噪声抑制能力。该算法的试验还说明了噪声抑制和学习能力之间是一种难以调和的关系。(五)从机器学习的角度分析并提出跟踪任务的本质是增量学习。使用选择性集成技术来实现对目标跟踪的增量学习,同时完成噪声检测与剔除。根据跟踪任务的特点,提出了背景预测技术。并在跟踪任务中使用了HSV颜色空间模型下Walsh局部纹理特征提取,取得了理想的效果。