论文部分内容阅读
近年来,机器学习取得了飞速的发展。由于最小二乘法在问题制定和实施上的简单性,在过去几年中受到了广泛的关注。尽管最小二乘模型在分类和回归方面具有良好的性能,但它对参数设置很敏感。这一挑战使研究人员更加关注这类单一的模型方法。解决这类问题的有效途径就是引入集成模型。本文首先概述了研究背景和最小二乘法的应用领域。之后简要讨论了研究现状,并介绍了最小二乘法的最后预处理方面。在目前的研究过程中,核集成学习在其应用方面取得了显著的进展。这主要通过提出正则化核集成回归、耦合最小二乘支持向量集成机和样本诱导因子核集成回归来实现的,主要内容如下:1)提出了联合正则核集成回归方案。该方案将多个核回归器同时应用到一个统一的集成回归框架中,并通过最小化核希尔伯特空间中的总集成损失函数来实现共同正则化。通过这种方式,一个对数据进行更精确拟合的核回归器可以自动获得更大的权重,从而获得更好的整体集成性能。与梯度增强法、回归树法、支持向量回归法、岭回归法、随机森林法等一些单模型和集成回归方法相比,我们提出的方法可以在在多个UCI数据集上实现回归和分类问题的最佳性能。2)提出了一种新的基于耦合最小二乘的集成支持向量机(C-LSSVEM)。与单模型方法相比,本文提出的耦合集成方法有助于提高模型的鲁棒性和提升其分类性能。提出的C-LSSVEM可以在一组分类器同时训练的情况下,以良好的耦合策略选择合适的核函数类型及其参数。该方法可以使核空间中的损失函数最小化。对内核回归器进行联合优化和加权,形成一个整体回归器。对人工数据集、UCI回归数据集、UCI分类数据集、手写数字数据集和NWPU-Resisc45数据集等多个数据集进行的大量实验表明,与最先进的数据集相比,C-LSSVEM在实现最低的回归损失和最高的分类精度方面表现更好。3)我们进一步提出了一种新的样本诱导因子核集成回归方法(SIFKER)来解决相关数据点与异常值的区分问题。在这个样本诱导框架中,我们引入了一个矩阵D来考虑丢失和噪声数据点中的恢复离群值的自由全局结构中的数据分布和惩罚权重。为了评价各个基础回归量的质量并选择性能良好的回归量,我们将样本诱导因子引入到损失函数,以降低模型中表现不良的回归量的权重。通过对不同UCI和计算机视觉数据集的实验结果表明,该方法在保持较低的回归结果和较高的分类结果方面优于其他的最先进的方法。