论文部分内容阅读
机器学习是本世纪初兴起的一门跨领域的交叉学科,涉及统计学,矩阵论,优化理论等多个学科.让机器具备人的学习能力是这门学科的终极目标.该学科主要研究的基本问题包括分类问题,回归问题和聚类问题等.1995年Vapnik等人提出的支持向量机理论因其结构风险极小化的理论基础,避免维数灾难问题以及小样本优势的特点在机器学习的各个领域被广泛的研究和拓展.2005年和2007年在人工智能顶级杂志上相继发表的关于广义特征值支持向量机和双子支持向量机的文章标志着支持向量机的思想开始从平行超平面向着更为复杂的非平行超平面方向转移.这两种非平行超平面支持向量机的思想都是在分类问题中提出的.因此本文首先回顾和总结了支持向量机在分类问题中的算法,然后在此基础上详细研究和讨论了双子支持向量机的算法思想,并将其拓展到回归,聚类和特征选择等相关问题中,填补了双子支持向量机在这些问题上研究的空白.广义特征值支持向量机对全体样本完全等同的看待,视向量空间中处于不同位置的样本对模型的构造应该具有相同的作用,而双子支持向量机提出了与广义特征值支持向量机不同的观点,认为相似的样本对模型的构造应该具有相同的影响,而不相似的样本对模型的构造具有一定的作用而不与前者完全等同.由于双子支持向量机在分类问题中对样本考察能力和分类能力上的突出表现,本文着重研究将双子支持向量机思想拓展到机器学习的其他基本问题中去,使得双子支持向量机思想的优势能够得到更好的发挥.首先在回归问题中,国际上已有若干双子支持向量机的拓展算法,如双子支持向量回归机和ε-双子支持向量回归机,本文在回归问题上从抗噪声能力入手,分别使用L1模和加权松弛向量对ε-双子支持向量回归机作了改进,得到两种新的回归算法,前者对样本惩罚的整体度量由L2模的平方调节成L1模,从而在全局上减少了噪声样本对模型构造的影响,原始的二次优化问题变成了分段线性优化问题,再通过一些代数技巧,将分段线性优化问题转化成线性优化问题从而可以使用单纯形法等现成的工具方法来求解;后者则考虑到噪声样本在向量空间中的坐标与非噪声样本有较大的不同,与非噪声样本的距离较远,因此可以利用噪声样本的这种特点来对不同位置的样本施加不同的松弛权重,来减少噪声对模型构造的影响.这两种改进方法在处理一些特殊的样本都分别起到了很好的抗噪声的作用,甚至可以结合在一起使用,这也是我们接下来的研究方向.实验证明了这两种方法在抗噪声方面的有效性.在聚类问题上,国际上还未有对广义特征值支持向量机和双子支持向量机思想算法的相应拓展,因此我们将这两种思想分别引入到聚类问题中,提出两种新的聚类算法,分别是广义特征值支持向量聚类机和双子支持向量聚类机,这两种新算法填补了广义特征值支持向量机和双子支持向量机在聚类问题方面研究的空白.此外,特别针对k-均值和k-平面聚类算法随机初始化样本簇类别带来的不确定性,我们给出了一种基于p进邻图的样本簇类别初始化方法,实验验证了这种初始化方法不仅能使所提出的聚类算法具有极高的稳定性,而且还能在一定程度上改善聚类算法的聚类效果.最后在特征选择问题上,由于支持向量机单权重特征的特点,已有的多种专为支持向量机设计的特征选择方法无法平移到拥有双权重特征的双子支持向量机上.本文中我们利用双子支持向量机考查超平面拟合和分隔样本的特点,提出在特征空间的子空间中寻找最优超平面的特征选择思想,通过引入特征选择矩阵,将特征选择这种问题转化成矩阵优化问题来求解,巧妙的解决了双子支持向量机在线性和非线性两种分类器上的特征选择问题.在本文中我们所提出的新算法都进行了大量的对比实验,实验结果验证了这些算法的有效性.