论文部分内容阅读
分类问题是实际应用中普遍存在的问题,也是机器学习领域的基础研究之一,快速发展的信息技术对其在理论研究和实际应用中提出了许多新的难题和挑战。支持向量机(Support Vector Machine,SVM)是基于统计学习理论,借助最优化方法来解决机器学习问题的有力工具,目前,已表现出很多优于已有方法的性能。本文以深入探讨分类问题为研究目标,立足于对支持向量分类机的理论模型和在实际中的应用进行完善、推广和创新。论文的主要内容包括以下几个方面:1.对本文采用的基础理论进行了介绍。主要包括机器学习的主要问题,统计学习理论的基本内容,以及支持向量机的基本思想和研究现状。2.从特征空间的几何结构入手,对核函数所蕴含的黎曼度量、距离度量和角度度量进行详细分析,在此基础上深入探讨高斯径向基核函数的几何性质,并分析了映射、核与度量之间的关系,说明支持向量机算法的解本质上依赖于度量。3.提出一种新的解决类不平衡与代价敏感分类问题的方法。支持向量机通过核函数,将数据嵌入到高维特征空间的一个低维流形表面,利用微分几何中流形表面诱导的黎曼度量,在半径间隔界的控制下,通过保角映射,放大类不平衡问题中少样本类与分界面之间的间隔,从而在保证多数类准确率较高的前提下,达到提高少数类的分类准确率,有效的减少了支持向量机在类不平衡问题中的有偏性。4.对1-v-r方法中子分类器采用不同核参数时,各决策输出值的可比性进行了深入分析,说明此时将各子分类问题映射到不同的特征空间,其决策输出值仍具有可比性,且能提高总体分类的性能。5.对分解多分类方法中存在的不可分现象进行了研究,针对一些实际应用问题,提出一种基于决策间隔的模糊输出支持向量机算法,该方法可以更为有效地解决不可分问题。6.从VC维的角度比较了有序与无序分类问题的复杂度,说明线性分类器的VC维与其分级维相同;结合支持向量机技术提出一种改进的内嵌空间算法,并在实际有序分类问题——企业信用风险评估问题中验证了该方法的有效性。最后,对本文的工作进行了总结,并对今后的研究工作提出了展望。