论文部分内容阅读
多标记学习自出现以来,为各领域普遍存在的多义或歧义性问题提供了有效的解决办法,弥补了传统单标记学习的不足。作为机器学习及数据挖掘方向的一个研究热点,多标记学习已广泛应用于各个研究领域。本文绪论简要综述了多标记学习研究背景与意义、两个关注方向的多标记分类算法的研究现状;详细介绍了多标记学习相关的理论基础,包括学习框架、性能评价指标及测试基准数据集;对本文所使用的对比算法进行了详细介绍。多标记分类是多标记学习任务重要的组成部分,关于多标记分类算法的研究,绝大多数研究者关注的是标记空间,主要算法大致分为三类:算法适应方法、问题转化方法、集成方法。第一类方法是对传统已有的学习算法进行改进扩展使其适应多标记数据;第二类是将多标记问题转化为若干个单标记问题或者回归问题进行处理;第三类是把上述两类方法单独或者联合集成为一个算法处理多标记数据。基于特征属性空间的分类算法考虑到了样例的特征属性空间操作对分类性能的影响,其分类效果不亚于其他算法。另外,通过挖掘样例之间数值关系,将关系映射到标记空间,也为标记预测提供了新的思路。本文对多标记分类问题进行的研究如下:(1)基于特征属性的多标记分类研究,提出了一种改进I2C距离的多标记场景分类算法。已出现的基于特征属性的算法都是对原始数据特征属性进行各种变换,另外对原始数据集特征提取方法的改变也可以达到目的。本文将多标记场景图像进行重新提取surf特征,改变了传统以一个向量表示一个样本的方法,变为以向量集合表示一个样本,分类即转变为基于特征属性粒度;其次采用改进的I2C计算方法来计算待测图像与已知类之间的距离;最后利用标记相关性预测所有可能的标记,通过实验表明该方法在各评价指标上效果有所提升。(2)基于样例数值关系的多标记分类研究,提出了一种通过挖掘样例之间数值关系预测样例标记的多标记学习方法。传统分类算法中,用到样例之间关系的只是在特征空间比较两个样例之间的相似性,借此推测类别标记,忽略了存在于样例之间的数值关系。充分挖掘样例之间的数值关系,将挖掘的数值关系映射到标记空间进行预测标记,为多标记分类提供了一种新的思路。本方法预处理过程为:首先对数据集根据标记分成若干组,对组内数据集的样例矩阵进行处理,求取相关参数;然后通过对两个优化函数的求解,计算每组样例对待测样例的贡献权重和待测样例近邻的贡献权重;最后结合了全局映射和局部平滑,通过参数控制两者对预测标记的影响权重,提高了标记预测的精度。