论文部分内容阅读
在传统的监督学习框架中,每个示例隶属于一个标记。在现实生活中,一个示例可能并不仅仅只被一个标记描述,而是同时隶属于多个标记。例如,一篇文档可能同时属于多个预先定义的主题,一张图片可能同时包含多个物体,一个基因可能同时拥有多种功能等。多标记学习是研究这类标记多义性问题的一种范式。然而,多标记学习问题不能解决诸如标记描述程度等问题,标记分布学习可以用来更加直接地解决这类标记多义性问题。从理论上说,标记分布学习是多标记范式的拓展,并且拥有更多的使用场景。如何充分利用并挖掘标记之间的相关性是多标记学习和标记分布学习的核心内容。基于此,本文主要研究多标记学习和标记分布学习范式中标记之间的相关性,主要研究内容如下:第一,基于关联规则的多标记学习算法。在多标记范式中,如果忽略各个标记间的关系,将多标记问题转化为多个单标记问题,会损失较多的标记关系信息导致分类效果不会太好。针对这一问题,本文利用关联规则算法挖掘标记之间的关联性,再利用得出的关联规则对多标记的数据集进行修改,更新多标记数据的标记分布,在此基础上使用现有分类算法进行分类。最后考虑到实际情况下,标记间的相关性只存在于部分子数据集中,进而考虑样本间的关联性,从而能够更加合理地修正数据,达到更好的分类效果。通过实验说明所提算法在处理多标记学习问题中的有效性。第二,基于标记相关性的标记分布学习算法。目前处理标记多义性的文献主要从两方面考虑标记之间的相关性,一是各个标记之间的相关性有先验知识,二是构建不同的模型计算各个标记之间的相关性。遗憾的是,上述算法大部分被应用于多标记范式中,在标记分布学习范式中应用较少。针对此问题,本文提出基于标记相关性的标记分布学习算法,将标记集合中的任意两个标记的距离利用参数矩阵中对应列之间的距离来替代,对现有的标记分布学习的模型进行改进,并使用L-BFGS算法进行优化。实验结果显示所提算法能够取得良好的效果。第三,基于多标记学习算法的商品评价打分应用。商品评价打分是在推荐系统的背景下被广泛研究的主题,这类问题是特定的用户对商品进行评分,系统进行预测并将高分的商品推荐给用户。本文将多标记学习算法应用于商品评价打分中,并与常用的几种标记分布学习算法和多标记学习算法进行实验对比,结果表明本文的方法在商品评价打分中具有更高的分类准确性,进一步说明本文所提算法的有效性,并且能够拓展多标记学习算法在实际问题中的应用。