论文部分内容阅读
随着大数据时代的到来,半监督学习越来越受到学者们的重视。半监督学习是一种监督学习与无监督学习相结合的学习方法,其训练集样本在使用有标签数据的同时也使用了大量的无标签数据。半监督学习常使用于分类中,传统的分类学习中考虑更多是如何提高分类正确率而忽视了误分类产生的损失程度。然而真实情况下,不同类别发生错误分类时往往会产生不同的损失程度,即代价敏感。因此依据数据样本输出的不确定性,在半监督学习框架下,本文基于针对代价敏感分类问题提出了一种数据样本再训练模型。其旨在降低误分类总代价,本文主要包括如下两部分工作:第一部分,提出基于不确定性的代价敏感半监督学习模型。在训练出一个代价敏感基本分类器即极限学习机(ELM)之后,根据数据样本输出的不确定性与误分类代价之间存在的某些特性,可以将较不容易分类错误的数据样本定义为高可信赖数据,同时将那些更加容易分类错误的数据样本定义为低可信赖数据。经过一次代价敏感的分类学习训练之后,可以从测试集中选出部分不确定性较小的数据样本及其预测类别作为高可信赖数据样本。基于半监督学习框架,将原训练集数据以及高可信赖数据作为新训练集进行重训练,从而可以得到一个新的分类学习模型。实验结果显示,该分类模型相较之前误分类总代价明显下降,因此该方法在一定程度上提高了分类器的性能。第二部分,基于不确定性构建三支决策模型。该模型支撑了第一部分内容中再训练学习模型使用不确定性较小的数据作为高可信赖数据进行再训练的合理性。在训练出一个代价敏感ELM之后,通过三支决策模型对其预测结果进行决策。根据不确定性的大小,对不同的数据样本进行不同的决策,且将部分不确定性大的数据进行延迟决策。对于延迟决策区域的数据,认为当前缺少足够的信息来进行决策。等到有新信息进来时,可以再对其进行决策。通过实验表明,该分类器采取三支决策后有效的降低了误分类总代价,因此侧面表明不确定性高的数据会对分类性能产生反作用,也就证明了第一部分工作中再训练学习模型使用的不确定性低的数据作为高可信赖数据是合理的。