论文部分内容阅读
支持向量机是20世纪90年代发展起来的学习机器模型,通过控制学习机器的容量和经验误差,构造对未来数据的预测规则。支持向量机已被广泛的应用于机器学习的多个领域,在模式识别、分类、函数逼近、聚类等领域都有高性能的表现。一般地,支持向量机通过核函数工作在特征空间,也就是,在输入空间无法处理的非线性问题可在特征空间中获得线性性能,从而有利于问题的解决。核函数是支持向量机模型的主要元素,直接影响其性能。一切数据之间的依赖关系、先验知识都通过核函数度量和携带。因此研究支持向量机的核方法对于提高支持向量机的性能、推广支持向量机的应用有重要的意义。仅仅有高性能的核函数对于构造支持向量机模型是不充分的,还要有与之对应的高性能模型选择算法。模型选择算法通过发现最优的模型参数,从而使支持向量机达到最好的性能。单类支持向量机是一个无监督的学习机器模型,由于缺乏模型选择的标准,其模型选择问题一直没有解决。虽然其模型参数对模型的影响被细致的讨论过,但模型选择一直是基于手工的方式解决,这显然缺乏合理性。文中指出,单类支持向量机的模型选择问题,可类比于一个开环系统,由于缺乏反馈信息,所以模型选择的切入点只能从优化主问题入手。通过优化主问题的目标函数,为单类支持向量机的模型选择找到可以依赖的标准。模型选择的迭代优化过程通过遗传算法实现,并通过构造性实验验证了算法的合理性。不变核/局部核,如高斯核、拉普拉斯核,在学习中存在局部风险,而且其依赖的距离度量也缺乏灵活性。文中通过构造一个全局核,捆绑在局部核上,从而提高局部核的性能,其意义是双重的:1)全局核增加了局部核的全局因素,从而使局部风险降低;2)通过全局核的间接作用,使得局部核(高斯核、拉普拉斯核)中的L1距离、L2距离抓取数据之间依赖关系的能力变强了。然后针对提出的新核,提出了基于遗传算法的两阶段模型选择方法为支持向量机选择模型参数。最后通过实验验证了新核及其模型选择算法的有效性。在支持向量分类中,对于具体的分类任务,高斯核存在一个全局最优的核宽度数值。但由于样本空间的分布不均匀,高斯核并不是处处适应的。在样本的稠密区域,会存在过学习现象;在样本的稀疏区域,会存在欠学习现象。所谓的全局最优的核宽度数值,不过是在过学习风险和欠学习风险的一个折中而已。文中研究了高斯核的局部提高方法:1)通过引入一个伪一致性变换,从而间接修改在再生核希尔伯特空间中黎曼流形上定义的黎曼度量的柔性,使得在空间的稠密区域,用小尺度的黎曼度量,在空间的稀疏区域,用大尺度的黎曼度量;2)在样本的高密度区域用小的核宽度值,在样本的稀疏区域用大的核宽度值。考虑到局部提高问题的复杂性,文中的方法可看成是解决一个问题的阶段性成果,而不是结束。支持向量分类时,特征空间中各维的重要性通过权值向量有清晰的描述,但是在输入空间中,高斯核对各个属性的重要性不加区分。显然各个属性对分类的贡献一般是不相同的,为了体现这种差别从而提高支持向量机的泛化能力,提出了多宽度高斯核的概念。多宽度高斯核增加了支持向量机的超级参数,针对这一情况,文中又进一步提出了支持向量机的多参数模型选择算法。