论文部分内容阅读
网络通信的发展,使得大数据的收集成为可能,如何高效处理并利用这些数据成为首要问题。数据量的增加以及计算能力的发展,使得深度学习成为机器学习领域中的一大主流方法,而目前很成功的方法都是基于强监督的,这意味着大量数据需要人工标注,但随着任务的复杂,数据量的增加,所消耗的人力也是巨大的。更一般化的弱监督多标号问题,即一张图片中所包含的多种物体,但不包含位置信息,该问题更具有一般性,场景更贴近现实生活,更具有实际的应用价值,而这些图片来源于自然场景下,由于背景、关照、变形等问题,且对应着多标号,问题复杂度也是呈指数变化。传统主流方法是通过人工特征结合多示例方法学习弱监督表示,随着深度学习的兴起,逐渐有相关工作关注该问题。本文主要是关注于深度学习在弱监督多标号图像分类中的研究与应用,主要贡献如以下,第一,深度学习与常用多标号方法相结合形成端到端的结构。传统多标号方法分特征抽取和分类器两个步骤,本文将深度模型与常用多标号损失相结合形成可导结构,并在公开数据集上验证其有效性;其次,提出了基于注意力机制的弱监督多标号图像分类框架。在该框架中,本文结合了卷积神经网络与递归神经网络,利用LSTM的序列学习能力,并首次加入注意力机制,使得模型在学习时能关注图片的局部,整个框架是端到端的,利用梯度下降法学习,自动调整关注区域,和传统的基于深度学习的方法相比,本文的算法在性能上有所提升,更重要的是,相对于其他方法具有更强的可解释性。最后,提出了基于多任务的类别不平衡的多任务人脸属性识别。本文在具体人脸属性识别任务上,针对多标号中常见问题,类别不平衡和人脸属性相关性,按照属性相关性进行分组并且使用了一种再平衡策略,设计了一个多任务人脸属性识别框架,在一定程度上缓解了不平衡问题,且该网络参数少,计算效率更高,且在公开的大规模人脸属性数据集CelebA和LFWA上获得最好的性能。