论文部分内容阅读
在自然、经济和社会领域,大量存在样本以组为单位,分类任务为学习训练集中每组“最优”样本的规律,然后预测未见样本组的最优样本问题;而现有机器学习问题的样本都以个体为单位,鲜有考虑成组出现和组中选优的情况。
本文将实际工作中大量存在的以上问题,归纳为组中选优机器学习问题。本文首先研究了新机器学习问题的建模和模型求解算法,接着给出了新模型和新算法的一个具体应用,表明新模型的有效性和优越性。本文的主要工作有:
1.提出了组中选优机器学习问题,并分析了该问题的新特点。组中选优的目标是选出每组中的最优样本,因此它仅需学习组内不同类样本之间的差异性,无需学习组间同类样本之间的相似性。进一步地,组间同类样本之间的相似性比较或学习不仅没有意义,甚至还会带来负面影响。
2.建立了基于支持向量机(SVM)的组中选优分类新模型(G.SVMs)。首先设计了组中选优机器学习问题的置信风险和经验风险的定量度量指标,然后根据SRM原则建立了体现组中选优特点的分类新模型(G-SVMs)。同时也导出了它们的对偶问题,以及原问题和对偶问题解之间的关系。
3.给出了G-SVMs的最小序贯算法(SMO)。首先研究了新模型最优解的KKT条件,然后根据该条件给出新模型的SMO算法,并在MATLAB环境下进行实现。
4.在数据预处理方面,提出了保持组内不同类样本差异条件下,减弱组间同类样本比较影响的组内比例化方法。
5.开展了G-SVMs在深交所新股申购中的应用研究。深交所新股申购投资问题是典型的组中选优问题,通过对比试验,表明了G-SVMs的有效性和优越性。
当组数为1时,G-SVMs就是经典的SVM,因此G-SVMs是经典SVM的一般化。组中选优机器学习问题的研究可丰富现有机器学习的模型和算法,拓广现有机器学习的应用领域。