论文部分内容阅读
目前机器学习在各个行业都得到了极为广泛的应用,对于模式分类的任务,有标签数据的获取需要耗费大量的人力和物力。相反的,无标签的数据往往比较容易收集到,并且很多数据往往特征维度都很高,这种环境下就产生了高维数据的半监督分类问题。当前的绝大多数半监督分类算法,特别是基于图的半监督分类方法,只是关注如何将无标签样本和有标签样本拟合样本分布,却忽略了当应对高维数据时,样本的噪声和冗余特征会造成较大的学习误差。面对高维数据时,一般的研究是进行半监督特征抽取方法(维度约减或流形学习),而这类方法并没有结合无标签信息到分类过程,特征选择也只是结合一种目标视图进行选择。传统随机子空间技术,容易丢失重要信息,当进行多个子空间集成时,并没有区分每个子空间的重要度,子空间的学习在有标签数据量少的情况下容易产生较大误差,并且子空间等的参数设置比较影响学习效果。本文从子空间的角度入手,提出了两个半监督集成分类算法模型。这两个模型基于启发式选择算法和协同学习的思想,利用样本标签置信度高的辅助训练集来进行特征的单目标或多目标优化选择,并结合流形图结构来进行分类器的训练,在子空间局部与全局选择时使用辅助训练集进行子空间的权重学习。第一个算法模型是基于自适应选择的半监督集成分类算法(ASCE),ASCE的特征子空间的选择是基于单目标的选择,最后的集成策略是从全局进行子空间权重的优化选择。第二个算法模型是基于多目标自适应子空间的半监督集成分类算法(MOSCE),MOSCE针对特征选择中的重点,从特征的相关性、冗余程度以及构造误差进行多目标优化选择,最后利用辅助训练集选出局部最优的子空间,提升单一子空间对应的学习器的性能。这两个模型紧密结合半监督学习,能较好地提升高维数据集的半监督分类问题的准确性、鲁棒性。本文在18个高维数据集上验证提出的两个半监督集成分类算法的性能,不仅与经典前沿的半监督分类算法进行对比,还具体分析了提出的两个半监督集成分类算法的关键技术以及算法的参数敏感性。整体的实验结果表明,本文提出MOSCE和ASCE在高维数据的半监督分类问题上能取得较好的分类效果。