面向弱监督语义分割的边界框先验与伪边界框生成研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:oep
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义分割任务作为其他高层图像处理任务的基石,从始至终都是计算机视觉应用领域的关键和热点研究方向,其对于汽车自动驾驶,人机交互等与人类生活密切相关的应用领域,也产生了巨大作用。随着人工智能与深度学习技术的兴起与发展,采用深卷积神经网络(Deep Convolutional Neural Network,DCNN)技术的一系列图像分割方式和早期方案相比性能有了很大的改善。这种基于深度学习的方式,通常都需要大规模的像素级分割标注数据对模型进行训练,但是这样的标注任务往往必须花费巨大的时间和经济成本,这也制约了当前基于深度学习的语义分割方法的进一步发展。所以,国内外不少科研学者都期望通过稍微降低对现有分割方法的精度要求,来减少图片标注任务的成本,于是提出了利用图片中的物体类别信息和物体边界框等标注形式作为弱监督条件的语义分割方法。本文提出了基于图像内部的边界框先验知识以及图像外部的预训练模型知识来对现有弱监督语义分割(Weakly Supervised Semantic Segmentation,WSSS)方法进行改进,从而提高现有WSSS方法的性能。现有基于物体边界框信息的弱监督语义分割方法(Weakly Supervised Semantic Segmentation based on Box-level Label,WSSS-BL)在训练阶段往往忽略了物体边界框的约束并导致最终的分割结果存在缺失的现象。针对这一问题,本文首先根据物体边界框是包含物体最小矩形的先验信息,提出并验证了物体边界框中几乎每一行与每一列都应包含属于物体的像素与不属于物体的像素的假设。通过将这一假设形式化为一个类似多示例学习(Multiple Instance Learning,MIL)的问题,本文提出了一个简洁的类多示例学习损失函数来约束模型包含这一先验信息。同时考虑到在图像内的物体边界框周围以及边界框相交的区域往往会存在多类物体,具有更为复杂的语义信息,本文还对像素级的交叉熵损失进行了加权,使模型更加关注这些较难分类区域的学习。本文将这两种损失进行结合并进行了一系列实验,使用了Pascal VOC 2012数据集和Cityscapes数据集,在现有基于边界框标注的弱监督语义分割方法基础上添加了本文提出的损失函数,不仅提升了原有方法的分割结果,也且超过了当前最好的方法。现有基于图像级标注信息的弱监督语义分割(Weakly Supervised Semantic Segmentation based on Image-level Label,WSSS-IL)方法一般是通过先是用图像物体类别标注训练一个分类器,然后使用分类器得到图像中的类激活图(Class Activation Map,CAM),并使用CAM经过一些后处理方法得到训练分割网络的伪标签;经调研发现现有的弱监督物体检测(Weakly Supervised Object Detection,WSOD)方法已经有了不错的效果,因此本文尝试先使用WSOD方法得到图片的伪边界框,然后再使用第一部分设计的损失函数改进现有的基于图像级标注的弱监督语义分割方法,同时考虑到伪边界框的不准确性,本课题在原有损失函数的基础上考虑了伪边界框的置信度,并将它作为边界框的权重对第一部分中提到的损失函数进行了改进,使其更具鲁棒性。本课题在Pascal VOC 2012数据集上进行了实验,通过并行训练方式使用鲁棒的边界框先验损失辅助分割模型的训练,进一步提高了现有基于图像级标注的弱监督语义分割方法的性能,验证了本课题方法的有效性,验证了本文提出的方法的有效性。视觉定位图像文本预训练(Grounded Language-Image Pretraining,GLIP)是微软公司提出来的将自然语言处理(Natural Language Processing,NLP)与计算机视觉(Computer Vision,CV)相结合的视觉语言(Vision-Language,V-L)预训练模型,该方法通过将物体检测任务重新形式化为一个视觉定位(Visual Grounding,VG)任务,使用了超大规模的数据集(约27M个图片文本对)来对模型进行训练,最终得到的预训练模型多个数据集上均得到了不错的效果。GLIP的优势在于其预训练模型提取的语义特征包含了更为丰富的语义信息,由于使用了文本而非确定的标签进行训练,该预训练模型能够对未在训练集中出现的物体短语较好的定位,从而能够对任意数据集图像产生不错的边界框预测结果,因此,本文提出使用GLIP来生成伪边界框。同时本文设计了一个算法将GLIP预训练模型与LBBA弱监督物体检测模型生成的伪边界框进行了融合,得到了更为准确的伪边界框,本课题基于EPS方法生成的像素级伪标签与融合后的伪边界框,使用鲁棒的边界框先验损失训练分割模型,最终在Pascal VOC 2012数据集上超过了现有其他方法,取得了最好的结果,证明了本文提出的伪边界框融合算法以及鲁棒边界框先验损失的有效性。
其他文献
<正>在近期召开的2022年中央农村工作会议上,习近平总书记强调:“农村现代化是建设农业强国的内在要求和必要条件,建设宜居宜业和美乡村是农业强国的应有之义,要一体推进农业现代化和农村现代化,实现乡村由表及里、形神兼备的全面提升。”农业农村现代化发展是中国共产党探索中国式现代化道路的重要内容,乡村建设始终贯穿其中。新时代以来,党中央把乡村建设摆在社会主义现代化建设的重要位置,从美丽乡村到宜居宜业和美
期刊
红色精神是中国共产党在历经百年艰苦卓绝的斗争中创造的一系列精神财富,是中国共产党革命精神的象征,是中国社会不断向前进步的动力和源泉。劳动教育是新时代高职生实现全面发展的重要组成部分。基于高职生劳动观念淡薄、劳动意志缺乏、劳动技能缺失等现状,为培养高职生正确的劳动观念,引导高职生从红色精神中汲取奋进力量,锻造坚定的劳动意志,形成正确的劳动观、价值观和成才观,高职院校应做到:传播红色精神,更新劳动教育
期刊
随着万物互联时代的到来,可穿戴设备数量越来越多,越来越普及。以前的研究中大多利用可穿戴设备上的传感器进行人体动作识别,而本文则提出了一个新的应用场景:利用可穿戴传感器进行地形识别。识别地形的能力为很多潜在的应用都奠定了基础,如可以利用识别出来的地形信息生成冰雪地形地图,作为人们冬季出行时的参考。本文首先收集了首个基于可穿戴设备的地形识别数据集,数据集包含了普通路面、雪地、冰面三种地形。由于缺少标注
学位
随着社交网络的发展,越来越多的用户生成内容拓展了文化产品生产、传播的深度和广度,为普通民众展示新中国辉煌成就开辟了崭新的窗口,为主流价值观的塑造与传播拓展了更为广阔的领域。通常评价文本质量一般以有用性作为衡量指标,然而,有用性只能作为文本浅层语义的衡量标准,当前新的需求是挖掘文本更深层次的内涵,从文本的内涵和价值观角度评价文本质量。为了推进国家重点研发计划项目:《基于可信与共治的全媒体内容社会众创
学位
机器翻译是自然语言处理的一个重要方向,神经机器翻译方法已经成为目前最流行的翻译方法,在一般的翻译任务上有很好的表现。然而,对大规模平行语料的需要成为了制约神经机器翻译方法在更多语言对和更多领域上应用的关键因素,低资源场景下平行训练数据不足的问题亟待解决。最近几年,基于数据增强的方法在低资源机器翻译上逐渐得到应用。该方法通过扩增出大量的伪平行语料作为原语料库的补充训练数据,有效解决了数据稀缺的问题。
学位
在基础教育课程教学领域,学习者视角的思想和方法自20世纪末逐渐在世界范围内兴起,其核心是通过研究师生综合数据信息、关注课堂教学过程,了解学生与教师对课堂意义的解构与重构,探究教与学之间的关系。绘本因其内容和形式的图文并茂、价值观念的儿童本位主义,成为学校课程与教学的独特资源。教育者在运用绘本时,需要尊重学生的天性,激发学生的求知欲和好奇心,保护和发展学生的想象力,以使学生获得成长和进步。学习者视角
期刊
报纸
学位
数字化时代下自闭症儿童绘本发展现状还不成熟,存在市场空缺大、绘本设计中存在社会刻板印象、设计缺乏时代特征性、绘本缺乏趣味性等问题。如何通过数字化技术的应用使自闭症儿童绘本得到发展,本文将从交互性、时代性、趣味性3个方面寻求数字化转型下的自闭症儿童绘本发展新途径。
期刊
文章针对学龄前儿童绘本信息可视化设计展开阐述,并结合当前学龄前儿童的心理特点和绘本使用现状,对学龄前儿童绘本的信息可视化设计现状和重要性进行分析。首先通过文献研究法、历史法探究了信息可视化的特征及发展脉络,其次,通过经验总结出了学龄前儿童绘本的信息可视化设计表现。最后,研究得出信息可视化作为不同于以往单纯的文字传播方式,给儿童的日常生活和教育活动带来了一定的变化,并且也深深地影响着儿童教育的教学方
期刊