论文部分内容阅读
当前在机器学习领域中,通过核技巧可以有效的解决非线性分类问题。但是,由于有时样本数据具有多样性和不确定性,将多个核函数进行组合来获得更好的泛化性能已经成为一种必然趋势,这使得多核学习方法获得了广泛关注。多核模型是基于核方法的学习模型,而且其灵活性更强。近来的各种理论研究和实际应用也已经表明可以通过使用多核模型提升学习模型的性能,同时获得可解释的决策函数。在多核学习框架中,通过核函数将特征空间中的数据表达问题转换成了核权重的选取问题,不同的基核选取策略构成了不同的多核模型。核权重的稀疏性会对多核学习模型的性能产生影响,且在训练过程中可以采用不同的方法来获得最优核矩阵,而每种优化方法的计算效率各有优缺点。因此对多核学习方法进行深入的研究,具有十分重大的意义。对于二类分类问题,本文基于支持向量机,论述了多核学习的基本框架,并对经典的稀疏多核学习方法和非稀疏多核学习方法进行了介绍,描述了它们常用的一些优化方法。在此基础上,本文提出了一种通用稀疏多核学习模型和基于极限学习机的非稀疏多核学习框架,主要工作如下:1.以支持向量机为基础,对稀疏多核学习和非稀疏多核学习方法进行深入研究,并在UCI数据集上进行实验和分析了核权重的稀疏性对多核学习模型分类性能的影响和不同优化技术的计算效率。2.提出了通用稀疏多核学习模型,在原有多核学习模型的基础上,引入关于核权重的L1范数和Lp范数(p>1)混合约束,从而能灵活的调整核权重的稀疏性。构建了新的多核学习模型,分析证明了该模型具有的性质,并设计相应的训练算法。该改进算法的有效性通过在UCI数据集和人造数据集上的实验得到了验证。3.提出了基于极限学习机的非稀疏多核学习分类方法,将极限学习机的优化算法应用到非稀疏多核学习的框架汇总,以用来提升传统非稀疏多核学习方法的训练复杂度。该改进算法的计算效率通过在UCI数据集和基因表达数据集上的实验得到了验证。本文主要研究核权重的稀疏性对模型分类性能的影响及其计算复杂度,提出的通用稀疏多核学习方法不仅可以控制核权重的稀疏性,而且能获得较好的分类精度;并通过引进极限学习机来改善非稀疏多核学习方法的训练速度。