论文部分内容阅读
随着信息技术的迅速发展和Internet的广泛普及,产生的数据量日益增多,如何从这些大量的数据中发现有用的信息来帮助人们对未知的现象作出正确的指导和预测,就成为了十分迫切的课题,机器学习技术就在这种需求下应运而生。统计学是现有机器学习方法的理论基础之一,尽管传统的统计学的理论体系比较完善,但是它需要事先知道样本的分布形式,并要求样本的个数趋于无穷多。但是在实际应用中,样本的数目是有限的,因此在某些问题的应用中其效果并不理想。基于此,统计学习理论是一门专门研究在有限样本情况下机器学习规律的理论。Vapnik等人从20世纪60年代开始致力于此方面的研究,随着其理论的不断发展,逐渐形成了一个比较完善的理论体系。Vapnik在统计学习理论的基础上提出支持向量机(Support Vector Machine,SVM),它克服了传统机器学习方法仅考虑经验风险最小化(Empirical Risk Minimization,ERM)原则的缺陷,SVM采用结构风险最小化(Structural Risk Minimization,SRM)原则对已有数据进行学习,通过求解凸二次规划问题(Quadratic Programming,QP)得到全局最优解,从理论上克服了神经网络中的过学习、局部最优解等问题。它不但能解决小样本的学习问题,而且通过引入核函数将数据映射到高维特征空间,克服了高维数据带来的“维数灾难”。SVM的诸多优点使其成为了机器学习领域新的研究热点。目前SVM仍然存在很多问题,这些问题也是研究热点。其主要问题存在于以下几个方面:1.参数选择问题无论是SVM分类还是回归,如果参数选择不当则会降低模型的泛化性能,因此选择较好的参数显得尤为重要,例如在C-SVM中,如果惩罚参数C的值过大,则会导致过学习,反之,如果C的值过小则会导致欠学习。目前参数选择理论一直受到广泛关注,目前有进化学习算法、网格算法、交叉验证等方法等。2.算法的时间复杂度自SVM提出以来,对它的复杂度进行改进一直是研究热点,SVM可归结为一个二次规划问题,但因为自由变量个数等于样本个数,所以当样本规模较大的时,传统的二次规划方法将会非常耗时。3.核函数计算复杂度对较大规模的数据来说,计算其核函数也并非易事,它需要所有样本进行内积运算操作。例如,在对SVM进行非线性变换的时候,如果样本数目过大,核矩阵的计算也将十分费时。本文的主要创新成果有:(1)为有效解决支持向量回归中的参数选择问题,提出了新算法(AGA-SVR),在该算法中,通过适时增加染色体变异的概率来提高染色体的多样性,克服了标准遗传算法存在个体容易早熟的缺陷,从而增加学习到全局最优的几率。通过将AGA-SVR应用于上证开盘指数预测,验证了该算法优于标准遗传算法及经典梯度下降算法。(2)提出了一种新的算法TDMSVM(Twin Distance of Minimum and Maximum SupportVector Machine),通过求解标准特征方程得到两个最优超平面,超平面满足到本类样例的平均距离最小化,同时到另一类样例的平均距离最大化。通过理论分析和实验证明,TDMSVM有以下优势:进一步降低了时间复杂度;并且不需引入正则项,故提高了泛化性能;克服了矩阵的奇异性。(3)提出一种新的快速分类算法HSSVM(Hyper Sphere Support Vector Machine),用两个超球分别拟合两类样本,只需用样本的均值和方差作为参数得到分类模型,在保证分类正确率的条件下将模型训练的时间复杂度降为线性O(m),并且模型对不平衡数据集有较强的鲁棒性。理论分析和实验表明该算法是一种快速有效的模式分类算法。(4)结合随机主成分分析和Nystr m提出一种新的算法。该方法可以加快计算基于核方法的速度,通过理论分析和实验表明该算法在保证近似精度的情况下,很大程度上减少了运算时间。