论文部分内容阅读
上世纪90年代,在Vapnik等人的努力下,基于数据的机器学习理论得到了长足的发展,形成了一门比较完善的统计学习理论。统计学习理论的精髓在于引入了假设函数容量控制,为了使学习机具有更好的推广能力,需要在假设函数容量控制和最小化经验风险之间作一个好的折中。在统计学习理论之前,核函数在机器学习中就被引入过,其中包含非线性映射和非线性函数。核函数能够有效地对数据进行降维,且避免了对数据的过度拟合。由于统计学习理论和核技术的结合,引起了核机器的出现和快速成功的发展。目前的核机器技术主要有支持向量机,多核学习,PAC框架和核Fisher分类器等问题。本论文就是在上述理论的视角上展开,主要包括以下三个方面的内容。首先,介绍了统计学习的基本理论及性质定理,对希尔伯特学习空间上的核函数及相关知识进行了总结。其次,由于统计学习理论和核函数的有效结合,得到的基于正则化框架的核函数学习最优化问题,有效地解决了有监督学习的求解问题。对正则化与核函数的结合在岭回归和支持向量机中的应用进行了详细的推导。最后,在正则化损失函数框架的基础上,提出了一种新的核函数的选择方法,并给出了相应的算法。新算法不同于贪婪算法的是:在选择使得目标函数值最小的组合系数时,将原优化问题转化为一个带约束的线性规划问题,并用非负最小二乘法进行求解。用MNIST数据做实验后的结果表明新方法得到的分类器优于用贪婪算法得到的分类器。