论文部分内容阅读
在最小包围球理论和支持向量机理论基础上发展起来的支持向量数据描述方法SVDD,在较少样本时也可以得到较好的分类效果,与其他方法相比,具有计算速度快、鲁棒性强、分类效果好等优点,目前该方法已成功应用在语音字符识别、图像处理、入侵检测等领域。真实世界的对象往往并不只具有唯一的语义,而是可能具有多义性,因而对多义性对象进行学习是一个非常重要的课题。而要解决多义性造成的问题,第一步就是要为对象赋予合适的类别标记子集,而不再是唯一的类别标记。因此自然界中的许多分类问题实际上都可以表示为多示例或多标记学习问题,换句话说,很多实际的分类问题表示为多示例或多标记学习问题更为科学。本文通过对支持向量机数据描述方法SVDD的研究,提出两种基于SVDD的分类方法;通过对多示例学习问题的研究,提出了四类十种基于SVDD的多示例学习方法。其主要研究内容如下:提出了一种基于最大球心距的SVDD方法,它对不同类样本采用不同的超球进行数据描述,运用两个超球将两类训练样本分开,同时以两个球之间的球心距最大化为目标函数。由于对不同类样本采用不同的超球进行数据描述,所以该方法对不平衡问题特别有效。实验结果表明了该方法的有效性,特别是对不平衡问题,基于最大球心距的SVDD方法都获得了比较好的分类效果。采用二阶损失函数,提出了一种二阶环形间隔SVDD方法,它运用两个同心超球将两类训练样本分开,同时最大化两类间隔。并且,针对不平衡数据分类导致分界面偏移的问题,提出了两种修正模型。第一种修正模型目标函数中对正类和负类采用了不同的惩罚参数,约束条件采用不对称策略,即对于多数类样本,要求其在超球内,对于少数类样本,不仅要求它们在超球外,而且要尽量远离超球,以保证少数类样本尽量不被错分;第二种修正模型则采用少数类样本不允许被错分的策略。实验验结果表明,不管是对平衡问题还是不平衡问题,二阶环形间隔SVDD方法及针对不平衡问题的修正模型都获得了比较好的分类效果。将SVDD方法引入到多示例学习中,提出了四类十种基于SVDD的多示例学习方法:基于示例分类的方法mi-SVDD,基于包分类的方法MI-SVDD,基于示例映射的SVDD-MILD_I类方法四种SVDD-MILD I11、SVDD-MILDI12、SVDD-MILD_I21SVDD-MILD122以及基于包映射的SVDD-MILD B类方法四种SVDD-MILD_B11SVDD-MILD_B12、SVDD-MILD_B21、SVDD-MILD_B22。mi-SVDD算法开始假设正包中所有示例均为正类,并将他们与负包中的示例放在一起,然后利用带负类的NSVDD去设计分类器并进行迭代以修正正包中示例的类别;MI-SVDD算法从每个正包中选出一个最正的示例认为是正示例,从每个负包中选出一个最不负的示例认为是负示例,把这些最正的示例和最不负的示例放在一起,然后利用带负类的NSVDD去设计分类器并进行迭代以修正最正的示例;SVDD-MILD_I类算法和SVDD-MILD_B类算法首先通过某种方式预测正包中的代表性正示例和负包中的代表性负示例,然后通过示例级别和包级别两种特征映射将问题映射到特征空间,从而多示例学习问题转化成特征空间中标准的机器学习问题,最后用带负类的NSVDD方法进行求解。在Musk数据集上的实验结果表明,mi-SVDD方法和MI-SVDD方法的精度与mi-SVM方法和MI-SVM的总体相当,而四种SVDD-MILD_I类方法的精度都比较高,不管是对Musk1还是Mlusk2,都超过了我们已知的目前已发表的最好结果,四种SVDD-MILD_B类方法的精度则比四种SVDD-MILD_I类方法的精度要低,与目前已发表的算法的平均精度相当。最后,我们利用四种SVDD-MILD_I类方法和四种SVDD-MILD_B类方法对COREL图像库进行了基于内容的图像检索。实验证明,四种SVDD-MILD_I类算法的精度明显比四种SVDD-MILD_B类算法的要高,特别是SVDD-MILD121算法和SVDD-MILD122算法表现优秀,其对10类图像分类时的平均检索精度超过了我们已知的目前已发表的最好结果,而且很好地区分了最容易混淆的Beach类图像与Mountains类图像,表明其适合基于内容的图像检索。