基于SVDD的单/多示例学习研究

来源 :浙江工业大学 | 被引量 : 5次 | 上传用户:zsxzsx1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在最小包围球理论和支持向量机理论基础上发展起来的支持向量数据描述方法SVDD,在较少样本时也可以得到较好的分类效果,与其他方法相比,具有计算速度快、鲁棒性强、分类效果好等优点,目前该方法已成功应用在语音字符识别、图像处理、入侵检测等领域。真实世界的对象往往并不只具有唯一的语义,而是可能具有多义性,因而对多义性对象进行学习是一个非常重要的课题。而要解决多义性造成的问题,第一步就是要为对象赋予合适的类别标记子集,而不再是唯一的类别标记。因此自然界中的许多分类问题实际上都可以表示为多示例或多标记学习问题,换句话说,很多实际的分类问题表示为多示例或多标记学习问题更为科学。本文通过对支持向量机数据描述方法SVDD的研究,提出两种基于SVDD的分类方法;通过对多示例学习问题的研究,提出了四类十种基于SVDD的多示例学习方法。其主要研究内容如下:提出了一种基于最大球心距的SVDD方法,它对不同类样本采用不同的超球进行数据描述,运用两个超球将两类训练样本分开,同时以两个球之间的球心距最大化为目标函数。由于对不同类样本采用不同的超球进行数据描述,所以该方法对不平衡问题特别有效。实验结果表明了该方法的有效性,特别是对不平衡问题,基于最大球心距的SVDD方法都获得了比较好的分类效果。采用二阶损失函数,提出了一种二阶环形间隔SVDD方法,它运用两个同心超球将两类训练样本分开,同时最大化两类间隔。并且,针对不平衡数据分类导致分界面偏移的问题,提出了两种修正模型。第一种修正模型目标函数中对正类和负类采用了不同的惩罚参数,约束条件采用不对称策略,即对于多数类样本,要求其在超球内,对于少数类样本,不仅要求它们在超球外,而且要尽量远离超球,以保证少数类样本尽量不被错分;第二种修正模型则采用少数类样本不允许被错分的策略。实验验结果表明,不管是对平衡问题还是不平衡问题,二阶环形间隔SVDD方法及针对不平衡问题的修正模型都获得了比较好的分类效果。将SVDD方法引入到多示例学习中,提出了四类十种基于SVDD的多示例学习方法:基于示例分类的方法mi-SVDD,基于包分类的方法MI-SVDD,基于示例映射的SVDD-MILD_I类方法四种SVDD-MILD I11、SVDD-MILDI12、SVDD-MILD_I21SVDD-MILD122以及基于包映射的SVDD-MILD B类方法四种SVDD-MILD_B11SVDD-MILD_B12、SVDD-MILD_B21、SVDD-MILD_B22。mi-SVDD算法开始假设正包中所有示例均为正类,并将他们与负包中的示例放在一起,然后利用带负类的NSVDD去设计分类器并进行迭代以修正正包中示例的类别;MI-SVDD算法从每个正包中选出一个最正的示例认为是正示例,从每个负包中选出一个最不负的示例认为是负示例,把这些最正的示例和最不负的示例放在一起,然后利用带负类的NSVDD去设计分类器并进行迭代以修正最正的示例;SVDD-MILD_I类算法和SVDD-MILD_B类算法首先通过某种方式预测正包中的代表性正示例和负包中的代表性负示例,然后通过示例级别和包级别两种特征映射将问题映射到特征空间,从而多示例学习问题转化成特征空间中标准的机器学习问题,最后用带负类的NSVDD方法进行求解。在Musk数据集上的实验结果表明,mi-SVDD方法和MI-SVDD方法的精度与mi-SVM方法和MI-SVM的总体相当,而四种SVDD-MILD_I类方法的精度都比较高,不管是对Musk1还是Mlusk2,都超过了我们已知的目前已发表的最好结果,四种SVDD-MILD_B类方法的精度则比四种SVDD-MILD_I类方法的精度要低,与目前已发表的算法的平均精度相当。最后,我们利用四种SVDD-MILD_I类方法和四种SVDD-MILD_B类方法对COREL图像库进行了基于内容的图像检索。实验证明,四种SVDD-MILD_I类算法的精度明显比四种SVDD-MILD_B类算法的要高,特别是SVDD-MILD121算法和SVDD-MILD122算法表现优秀,其对10类图像分类时的平均检索精度超过了我们已知的目前已发表的最好结果,而且很好地区分了最容易混淆的Beach类图像与Mountains类图像,表明其适合基于内容的图像检索。
其他文献
<正> 概述八十年代初,我国部分单位先后从美国西欧等地引进了成套的或关键的PCB制造设备。为了适应发展的需要,我厂首先研制出“棕毛型含磨料尼龙刷辊”,并开始满足国内PCB制
我国鼻内镜手术是在20世纪80年代末和90年代初建立的。在借鉴国外经验的基础上,我国鼻科医生围绕这一技术,结合我国的实际情况进行了大量的基础和临床研究,并逐渐在全国推广,取得
分析当前高校"三公"经费管理与使用方面的主要问题及产生问题的原因,就进一步加强和规范高校"三公"经费管理与使用,提出加强教育、树立三种意识,夯实基础、扎紧制度笼子,创新方法
神经网络集成Boosting算法有许多变种,在实践中最典型最有应用价值的是Adaboost算法,AdaBoost算法有错误样本恶性积累的缺点。随着迭代的继续,错误样本的权重呈指数级不断上升,便
课程实施项目化教学是高职课程改革的必然趋势,《ASP动态网站》课程是高职计算机专业学生的必修课。笔者通过项目引领、任务驱动的动态网站设计与制作的实践活动,使学生能够
本文研究的重点是煤矿井下隔爆型轮式移动机器人的设计及其控制模式。在深入研究煤矿井下设备防爆要求及相关标准的基础上,初步确定了煤矿隔爆移动机器人的性能参考指标。重
光纤系统性能本质上受限于所应用光纤的非理想因素。光纤双折射是对光纤系统性能影响较大的因素之一。光纤双折射所引入的偏振相关问题始终是光纤系统面临的难题。本论文研究
电影与电子游戏的跨界融合已成为当前电影发展的必然趋势,电影的观念和形态均受到了电子游戏的影响。营造沉浸式的体验效果是电影与电子游戏追求的共同目标,同时也是两者相互