【摘 要】
:
在驾驶员疲劳检测、教育和人机交互等应用领域,理解人类情绪的状态或者目的是必要的。由此,研究者向人脸表情识别投入了更多的关注。大量研究已经证明了对于解决识别任务,基于卷积神经网络方法是强大且成熟。但是,当我们把上述理论应用于多姿态人脸表情识别任务时,依然会存在很多问题。事实上,不同姿态下人脸重要的局部区域会有所不同,而现有深度学习框架中的注意力机制对这些局部区域的鉴别性信息的关注度不足;另外,人脸表
论文部分内容阅读
在驾驶员疲劳检测、教育和人机交互等应用领域,理解人类情绪的状态或者目的是必要的。由此,研究者向人脸表情识别投入了更多的关注。大量研究已经证明了对于解决识别任务,基于卷积神经网络方法是强大且成熟。但是,当我们把上述理论应用于多姿态人脸表情识别任务时,依然会存在很多问题。事实上,不同姿态下人脸重要的局部区域会有所不同,而现有深度学习框架中的注意力机制对这些局部区域的鉴别性信息的关注度不足;另外,人脸表情识别面临的一个常见问题未得到有效的解决,即两种相似表情间的差异不大,容易发生相互混淆。为了解决上述问题,本文提出了LGA-GCN人脸表情识别框架,该框架能够利用滑动块注意力重复性学习局部区域的重要信息的同时,应用图卷积神经网络描述表情之间依赖关系。在第三章提出了滑动块注意力网络LGSBAN。考虑到与原图相比,中高层特征尺寸更小,包含更具鉴别性的特征,LGSBAN选择中高层特征作为全局图,通过滑动窗口将全局图分割成子图,其中这些子图定义为滑动窗口块,每个滑动窗口块均与其邻近滑动窗口块有重叠部分。接着,利用多个注意力模块对滑动窗口块和全局图进行加权,以适应人脸多姿态下的表情识别。实验表明了本文提出的LGSBAN-AM方法的人脸表情识别准确率高于其他的先进理论。为了更好地辨别相似的人脸表情,本文在第四章建模表情之间依赖关系,利用图卷积神经网络更新这种依赖关系,并获取表情分类器。具体而言,表情之间依赖关系取决于RAF-DB数据库中复合表情标签占所有表情标签的比例,进一步通过调节阈值抑制了低比例复合表情标签。在图卷积网络更新迭代过程中,过度平滑将导致当前节点特征的稀释。为了缓解这个问题,提出了重新加权邻接矩阵的方案。图卷积神经网络(GCN)和滑动块注意力网络(LGSBAN)组成本文的整体框架LGA-GCN。该框架结合表情分类器和LGSBAN输出的局部和全局融合外观特征,得到最终的人脸表情预测结果。最后,根据三个相同多姿态数据库上的实验结果,我们观察到LGA-GCN方法相比于LGSBAN方法,在RAF-DB上识别率提升了1.24%,在FERPlus上识别率提升了0.35%,在Affect Net上识别率提升了1.54%。原因在于LGA-GCN通过引入表情之间依赖关系抑制了相似表情间混淆,同时通过滑动块注意力关注了局部和全局外观特征。
其他文献
随着深度学习技术在计算机视觉和自然语言处理领域的广泛应用,越来越多的学者将目光聚集到二者的交叉领域上来,图像描述、视觉搜索等基于二维数据的相关任务都取得了令人瞩目的发展。近些年来,三维传感技术的进步推动了三维视觉的革命性发展,对点云形式的三维室内场景数据的研究也逐渐成为当前的研究热点。目前,已经有相关工作致力于链接三维视觉和自然语言处理两个领域,相关数据集和优秀工作的提出,为在三维环境下的跨领域、
遥感图像分类是遥感图像处理的重要组成部分,已经在城市制图、精准农业、森林变化检测、环境保护和军事侦察等多个领域进行广泛地运用,具有重要的研究意义。近年来,集成学习算法成为遥感图像分类领域的热门研究方向。与单分类器相比,集成学习不仅可以利用多个基分类器之间的差异性,提高模型的泛化性能,而且能够使各个基分类器的信息进行互补,从而显著提升分类系统的准确性和鲁棒性。本文以集成学习为核心技术,开展遥感图像分
三维重建是通过计算单个或多个相机采集的二维图像间的关系,来恢复潜在的三维模型的技术。作为计算机视觉的重要问题之一,三维重建已广泛应用于增强现实、摄影测绘、自动驾驶等领域。然而,由于输入图像中往往具有场景变化大、可用信息少等特点,三维重建过程中容易出现特征点定位误差大、相机姿态不正确、模型存在空洞等问题。针对上述问题,本文通过研究特征点提取、视图重建等方法,设计并实现了一种基于深度学习的三维重建系统
随着移动通信技术的发展,人们开始研究如何在移动终端实现目标定位、手势识别、成像等感知功能。目前,移动终端上的成像功能主要依靠光学摄像头实现,光学成像发展多年,技术成熟,但是光学摄像头容易受光线条件影响,在弱光或无光环境中难以实现成像。而基于太赫兹阵列的成像系统不受光线影响,能够实现非可视环境下的成像。太赫兹电磁波波长短的特点也易于设计出适合移动终端使用的天线。此外,太赫兹波具有的高宽带性能够实现高
随着信息活动的日益频繁以及无线通信手段的日新月异,海量的信息交流难以避免地产生了大量的射频干扰源。在地球遥感应用中,由于微波辐射计所测量的大气和地表的信号较微弱,使得设备观测信号受到了严重的射频干扰源污染,进而难以反演得到精确的遥感信息。综合孔径微波辐射计的宽视场以及有限的空间频率采样导致了射频干扰源在成像结果中存在吉布斯现象,因而射频干扰源对综合孔径微波辐射计成像性能的影响更为显著。为了缓解当前
目标跟踪始终是科学研究中的热点领域,随着社会的不断发展,跟踪场景变得日益复杂,多目标跟踪技术也随之得到快速的发展和应用。群目标跟踪的概念随之被提出,群目标跟踪中跟踪的目标是由多个单目标组成,它们以相同的速度或方向进行移动,如无人机群,舰艇编队等。目前群目标跟踪更是被广泛的应用在各个领域,例如智能监测、机器人视觉导航,室内定位等,随着研究的深入,越来越多基于随机集(RFS)的滤波算法涌现出来,例如概
在医学图像领域,图像融合是一种重要的医学辅助技术,可以综合处理不同医学成像设备提供的图像信息,并进行有效组合,获得一幅信息更加丰富的结果图像。本文研究了基于反卷积神经网络及直觉模糊推理的CT/MRI医学图像融合算法,具体研究内容如下:研究了基于多方向梯度的直觉模糊推理CT/MRI图像融合算法。为了获得能够充分表征源图像的特征图,本文采用基于高斯方向滤波器的反卷积神经网络,根据待融合数据,设计了图像
高校实验教学是学生掌握专业技能与培养解决实际问题能力的重要途径,其中,学生实验课堂表现是实验成绩评估的重要环节。但是,近年来随着学生数量的增加与实验内容复杂度的提升,单纯依靠教师已难以及时、精确地评估学生的课堂表现。因而有必要将人工智能技术融入到实验课堂教学中,通过智能视频检测方法实时识别学生的实验课堂行为,提高了课堂表现评估的精确性和实时性。本课题充分考虑大学实验课堂的具体情况和需要,为解决学生
同步定位建图技术(Simultaneous Localization and Mapping,SLAM)是在未知区域中实时获取自身定位和环境位置信息的技术。目前,单目SLAM存在建图稀疏的问题和运动较快时容易发生定位丢失的问题。针对这些问题,本文对基于特征点法的单目ORB-SLAM2系统进行改进,提升了系统建图的稠密程度和部分快速运动场景下的鲁棒性。本文工作如下:(1)针对单目ORB-SLAM2系