论文部分内容阅读
随着日益普及的智能设备和迅猛发展的社交网络、社会媒体,数字图像和视频作为记录视觉信息的主要载体,正在快速地改变着人们的生活、生产方式。爆炸式增长的图像、视频数据既带来了数据量巨大、存储处理困难等挑战,也提供了深度挖掘、理解图像/视频数据等机遇。不同于目标分类和检测,目标分割作为一种高层次、细粒度的图像/视频解析任务,能够对指定类型的目标进行精确的定位并提供详细的边界信息,并在自动驾驶、视频编辑、图像搜索、医学图像分析等多个领域中展现了巨大的应用潜力。本文针对目标分割的多个子任务,包括视觉显著性检测、图像语义分割、视频目标分割开展了深入的研究工作,论文的主要创新性研究成果包括以下几个方面:
1.提出了一种新颖的鲁棒字典表示模型,并应用于自下而上的图像显著性检测。该字典表示模型通过?2,1范数有效地避免了现有的低秩特征矩阵分解过程中核范数与稀疏范数相互冲突的情况,并增强了字典表示过程中对于异常值的鲁棒性。在多个图像显著性检测数据集上的结果表明该方法优于现有基于字典表示的方法,并有效地降低模型的计算复杂度。
2.提出了一种可自我解释的卷积神经网络模型,并用于解决图像显著性检测问题。该模型包含两个子模块,即显著性检测网络和扰动检测网络。显著性检测网络充分、密集地利用了不同尺度的卷积特征,并通过不同类型的连接将这些特征整合,增强了分类器与不同类型特征的连接。扰动检测网络利用可解释的扰动挖掘方法来分析显著性检测网络对于特定输入的敏感性,并以校正输入图像的方式来进一步提升显著性检测网络的结果。在多个图像显著性检测数据集上的结果表明该方法优于现有基于卷积神经网络的方法。
3.定义了一种更接近实际应用的半监督图像语义分割问题—跨类别半监督图像语义分割,并提出了一种可迁移的卷积神经网络模型来解决该问题。该方法利用相似目标类别间的可迁移性,把在一种目标类别(如狗这种类别)上学习得到的知识迁移到其他相似的目标类别上(如猫、马、牛等)。为了进一步迁移分割知识,该方法还利用了对抗训练的方式来训练语义分割模型。在只有50%的类别具有像素级别标注的情况下,所提方法实现了全监督学习模型96.5%的性能。
4.提出了一种利用运动信息的视频目标分割方法。该方法利用运动信息来校正、整合当前帧图像在时域上相邻的图像帧特征,以此来增强卷积神经网络的特征表示能力。此外,该方法还从运动信息中提取分割先验知识来有效地滤除干扰目标或区域,辅助分割模型的预测,从而优化最终的分割结果。在DAVIS-16,Youtube-Objects和SegTrack-v2数据集上结果表明所提方法能够提供更加准确的分割结果。
5.提出了一种基于元学习框架的快速视频目标分割方法。该方法将视频目标分割问题从数据驱动转变为任务驱动,在多个相似的视频目标分割任务上对分割模型进行快速、准确地元学习。该方法还提出了一种新颖的在线调整策略,保证分割模型能够随着时间的推移来持续地调整自身模型参数,从而更好地应对视频中时域上的变化。在DAVIS-16,DAVIS-17和Youtube-Objects数据集上结果表明所提方法能够在不牺牲模型准确性的前提下,只需现有方法1/30的单帧处理时间。
1.提出了一种新颖的鲁棒字典表示模型,并应用于自下而上的图像显著性检测。该字典表示模型通过?2,1范数有效地避免了现有的低秩特征矩阵分解过程中核范数与稀疏范数相互冲突的情况,并增强了字典表示过程中对于异常值的鲁棒性。在多个图像显著性检测数据集上的结果表明该方法优于现有基于字典表示的方法,并有效地降低模型的计算复杂度。
2.提出了一种可自我解释的卷积神经网络模型,并用于解决图像显著性检测问题。该模型包含两个子模块,即显著性检测网络和扰动检测网络。显著性检测网络充分、密集地利用了不同尺度的卷积特征,并通过不同类型的连接将这些特征整合,增强了分类器与不同类型特征的连接。扰动检测网络利用可解释的扰动挖掘方法来分析显著性检测网络对于特定输入的敏感性,并以校正输入图像的方式来进一步提升显著性检测网络的结果。在多个图像显著性检测数据集上的结果表明该方法优于现有基于卷积神经网络的方法。
3.定义了一种更接近实际应用的半监督图像语义分割问题—跨类别半监督图像语义分割,并提出了一种可迁移的卷积神经网络模型来解决该问题。该方法利用相似目标类别间的可迁移性,把在一种目标类别(如狗这种类别)上学习得到的知识迁移到其他相似的目标类别上(如猫、马、牛等)。为了进一步迁移分割知识,该方法还利用了对抗训练的方式来训练语义分割模型。在只有50%的类别具有像素级别标注的情况下,所提方法实现了全监督学习模型96.5%的性能。
4.提出了一种利用运动信息的视频目标分割方法。该方法利用运动信息来校正、整合当前帧图像在时域上相邻的图像帧特征,以此来增强卷积神经网络的特征表示能力。此外,该方法还从运动信息中提取分割先验知识来有效地滤除干扰目标或区域,辅助分割模型的预测,从而优化最终的分割结果。在DAVIS-16,Youtube-Objects和SegTrack-v2数据集上结果表明所提方法能够提供更加准确的分割结果。
5.提出了一种基于元学习框架的快速视频目标分割方法。该方法将视频目标分割问题从数据驱动转变为任务驱动,在多个相似的视频目标分割任务上对分割模型进行快速、准确地元学习。该方法还提出了一种新颖的在线调整策略,保证分割模型能够随着时间的推移来持续地调整自身模型参数,从而更好地应对视频中时域上的变化。在DAVIS-16,DAVIS-17和Youtube-Objects数据集上结果表明所提方法能够在不牺牲模型准确性的前提下,只需现有方法1/30的单帧处理时间。