论文部分内容阅读
机器学习在数据时代得到了迅速的发展,而其中的分类问题更是重点研究内容。传统的分类算法通常假设训练样本集中每类样本的数目相等,且各类别的错分代价相同,但实际应用问题大多属于代价敏感问题。在这些问题中,通常少数类样本应该获得更多的关注。换句话说,少数类样本的错分代价远远高于多数类样本的错分的代价。本文针对二分类问题展开研究,采用平衡级联的策略解决数据的不平衡问题,同时将代价敏感学习融入到稀疏表示分类和协同表示分类算法中,提出相应的代价敏感学习算法。 本研究主要内容包括:⑴改进平衡级联的稀疏表示分类算法(BC-SRC)。对于类别不平衡分类问题,采用平衡级联采样策略获得平衡化的训练样本,并利用稀疏表示分类算法进行分类。具体地,对于一组类别不平衡的训练样本,每次选择与少数类样本个数相同的多数类样本一同作为子训练集,不重复的多次选择子训练集使训练集中的多数类样本全部被取出过,并利用稀疏表示分类算法对药品进行预测。最后,根据得到的多组结果采用加权策略得到测试样本的最终类别属性,并在药品的近红外光谱数据上验证了该算法的有效性。⑵改进代价敏感的稀疏表示分类算法(CSSRC)。将代价敏感学习引入到稀疏表示分类算法中,并利用概率估计模型估计样本错分的后验概率作为误分代价。由于稀疏表示系数的大小反映该样本在对未知样本线性表示中所起到的作用,因此本文利用稀疏表示系数估计样本的错分后验概率,有效的解决了稀疏表示分类算法对类别不平衡问题的敏感性,还可以降低算法计算复杂度。⑶改进代价敏感的协同表示分类算法(CSCRC)。对于小样本问题,协同表示分类算法提供了一种有效的解决方案,但同样存在样本代价敏感的问题,因此提出代价敏感协同表示分类算法。通过高斯函数定义协同表示的系数向量的分布,并利用对数算子将系数向量的分布转化为协同表示框架形式,根据协同表示系数向量的分布得到样本被错分的后验概率,最后利用代价敏感学习框架有效地解决此类类别不平衡问题。