论文部分内容阅读
监督式分类技术基于强监督假设,通过学习大量的、具有单一且明确的真值标记的样本来训练分类模型。尽管现有的监督式分类技术已经取得了巨大的成功,但由于数据标注过程需要耗费大量的人力和物力,且受外部环境、问题特性以及标注者自身的原因等多方面因素的制约,很多数据获取到的往往是少量的、不准确的标记。此外,真实世界中的对象普遍具有多义性,即每个样本可以同时拥有多个标记。在多义性场景下,指数规模的输出空间使得学习系统需要更加充裕的监督信息。传统的监督式分类框架在不足够的监督(即不足够的有标记样本)、不准确的监督(即不准确的标记信息)及多义的监督(即每个样本可以同时拥有多个标记)的弱监督场景下难以取得较好的效果。因此,研究弱监督场景下的分类算法具有极大的现实意义。本文围绕上述三种弱监督场景,通过分析现有的弱监督方法的不足,分别基于半监学习技术、多标记主动学习技术与偏多标记学习技术展开研究,完成的主要工作如下:1、基于半监督学习技术解决不足够的监督的问题:由于真实世界中的样本并不总是均匀分布的,两个靠近决策边界的、拥有不同标记的样本可能会相距很近,因此很容易被错误分类。针对这一问题,我们提出一种基于聚类调整相似度的半监督分类方法SSC-CAS。该方法首先利用聚类算法探索所有未标记样本与有标记样本的结构信息,然后根据样本所属的聚类簇之间的相似度调整样本之间的相似度,使得处于决策边界处且处于不同聚类结构的样本间的相似度减小。最后,SSC-CAS在这个新构造的图上执行基于图的半监督分类。实验结果证明了这种构图方式的有效性,且SSC-CAS获得了较相关对比方法更好的分类表现。此外,大部分现有的半监督分类方法都同等对待每个样本。事实上,越靠近决策边界的样本应该获得更多的关注。基于上述情况,我们提出一种新的基于样本加权的半监督分类方法WS3C。该方法首先基于多次聚类结果衡量样本的难聚类程度与样本间的相似度。越靠近决策边界的样本越难聚类,应拥有更大的权重。然后,WS3C利用样本的难聚类程度对样本进行加权并结合样本间的相似度构建了一个流形正则化框架来预测未标记样本的标记。实验分析证明了这种样本加权方式的有效性,且WS3C具有较相关对比方法更好的分类表现。2、基于多标记主动学习解决多义的监督下不足够的监督的问题:在多义的监督场景下,样本的标注过程更加困难且代价昂贵。一个样本是否与一个标记相关取决于该样本是否包含与该标记相关的特征信息。然而,当前的主动学习方法查询一个样本标记对的相关性时,要求标注者详细审查完整个样本。事实上,对于一个相关的样本标记对,标注者可以更容易地仅通过审查待标注样本的关键的子样本来审查所查询的样本标记对的相关性,减少标注代价。基于上述情况,本文提出了基于子样本标记对查询的多标记主动学习方法CMAL。该方法首先利用不确定性、标记相关性以及标记空间稀疏性选择出最有价值的样本标记对,然后基于所选择的样本标记对迭代地选择出最可能相关的子样本标记对给专家标注。实验结果表明,在同样的成本条件下,CMAL能够获得较相关对比方法更好的分类表现。3、基于偏多标记学习解决多义的监督下不准确的监督的问题:在多义的监督的场景下,样本的标注过程更加困难,因此更容易出现噪声标记。显然,噪声标记的存在会影响分类器的分类表现。然而,当前的多标记学习方法假设已获取的标记是无噪的,研究多义的监督下不准确的监督的工作还很少。基于上述情况,本文提出一种基于矩阵分解的多标记噪声标记识别方法MF-INL。该方法首先利用矩阵分解技术分解原始的包含噪声标记的样本标记关联矩阵为两个低维的矩阵,同时保持样本在低维空间的结构信息与标记在低维空间的相关性。然后,MF-INL利用分解的两个矩阵重构样本标记关联矩阵。在该重构的关联矩阵中,关联值更低的样本标记关联更可能是噪声关联,即该标记更可能为该样本的噪声标记。实验结果证明了MF-INL识别噪声标记的有效性。为进一步提高噪声标记识别的表现与同时实现噪声标记场景下的分类器训练,本文提出一种特征诱导的偏多标记学习方法fPML。该方法通过将样本特征与标记映射到同一个低维的语义空间学习原始样本标记关联矩阵的低秩逼近,估计样本标记关联置信度,进一步识别噪声标记。特别地,fPML在识别噪声标记的同时,利用估计的样本标记关联置信度训练一个投影矩阵,将样本特征映射到标记空间,实现对未标记样本的标记预测。实验结果表明fPML较对比方法能够更有效地识别噪声标记,且在未标记样本标记预测上也获得了较对比方法更好的表现。