基于深度学习的人脸表情识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xuzhonghai01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸表情是在人类交流中传递信息的重要媒介,对人脸表情进行分析与识别能有效理解人类的行为意图,在人机交互、智能监护等领域具有广泛的应用前景。目前,人脸表情识别的研究重点正在从实验室环境转移到非受控的自然环境,面临着表情强度微弱、光照变化、人脸遮挡等难点。在这一背景下,本文利用深度学习建模高度非线性问题的能力,通过搭建与训练深度神经网络模型,提升现实环境下的人脸表情识别的准确率和鲁棒性。本文围绕基于深度学习的人脸表情识别任务,研究探索了卷积神经网络、循环神经网络、三维卷积神经网络、卷积注意力模块等多种深度学习方法,主要工作成果如下:(1)提炼了基于深度学习的人脸表情识别算法的基本流程,并针对表情识别任务存在的数据集样本质量不佳、数量少的问题,提出了一套数据预处理方案和模型预训练方案,从而缓解过拟合现象,提升模型的鲁棒性和泛化能力。(2)针对基于静态图像的人脸表情识别任务,提出了一种结合二阶池化机制和联合损失的表情识别方法。首先,针对表情识别任务的特点,提出了一种改进型的VGG网络,为VGG网络引入二阶池化机制和批量归一化层,用以提取表情的二阶特征,同时加速网络的收敛。然后,考虑到人脸表情识别任务与细粒度分类任务的相似性,将细粒度分类任务中的互通道损失引入损失函数,联合交叉熵损失和互通道损失,促使网络学习到人脸表情更具判别性的特征。最后,在FER2013和CK+数据集上的实验结果表明二阶池化机制与联合损失更准确地提取到了人脸表情特征,提高了表情识别的准确率。(3)针对基于视频的人脸表情识别任务,提出了一种结合注意力模块和时序网络的表情识别方法。为了有效提取到视频帧之间的时序信息,采用了CNN-LSTM和3D-CNN两种典型时序网络。为了增强网络的特征表达能力,为CNN-LSTM的CNN网络引入了卷积注意力模块;并为3D-CNN网络引入三维卷积注意力模块,构建了一个三维残差注意力网络。然后,将两个增强型时序网络在决策层进行加权融合,组成混合网络模型,以进一步提升模型性能。最后,在AFEW和CK+数据集上的实验结果表明了两增强型时序网络能够有效提取到人脸表情序列的时空特征,且多网络融合进一步提高了表情识别的准确率。
其他文献
随着城镇化进程的快速推进,农村人口逐渐向第二、三产业转移,我国正面临着农业兼业化、农村空心化、农民老龄化的严峻挑战。谁来种地、如何种地的问题亟需解决。为解决这一问题,近年来我国不断加大专业大户、农民专业合作社、龙头企业以及家庭农场等新型经营主体的投入力度。其中家庭农场是以家庭承包为基础,更符合我国农业生产和家庭经营的特点,是现阶段最适宜的新型农业经营主体。然而我国家庭农场仍处于起步阶段,目前经营效
学位
报纸
电磁吸波体是一种能够有效吸收电磁波的结构或材料,它能将电磁波能量转化为热能耗散掉。在表面覆盖电磁吸波体已经成为武器装备降低雷达散射截面积(RCS)的重要手段。随着电子对抗技术的发展,多功能电磁吸波体正在成为当前电磁领域的研究热门。本文基于电磁吸波体的基本理论,设计了两种频率选择吸波体,并研究了一种基于神经网络的纸基吸波材料电磁参数提取方法。本文的主要研究内容概括如下:1、双阻带双极化频率选择吸波体
学位
自供给侧结构性改革战略实施以来,山西省不遗余力地进行产业转型,大力推进农业产业化,扶持龙头企业发展壮大,时至今日,已取得不少成就。然而,对于这些龙头企业发展状况如何、在地理上呈现怎样的分布特征并反映出山西省农业产业化到底处在一个怎样的发展阶段以及哪些因素影响着龙头企业的分布等问题,尚没有完整的针对性研究对其一一进行回答。为了解决以上问题,本研究以山西省省级农业产业化龙头企业为研究对象,利用核密度估
学位
自古以来,土地不仅是宝贵的自然资源,还是人民财富之母,因此将土地和土地政策置于中国农业、农村和农民问题的解决当中,置于国家战略进程中具有其他政策不可替代的深远影响和作用,其中农地流转政策的实施可有效提高土地分配效率和农业生产效率。因此深入探究欠发达地区的农地流转情况对于农地流转政策实施、巩固脱贫成效具有重要意义。本研究以山西省陵川县为例,基于相关文献阅读,运用问卷调查与访谈法相结合进行实地调研,了
学位
视觉富文档是指语义结构不仅由文字的语义决定,还与文字布局和视觉特征有着重要关联的一类文档。随着深度学习的发展,光学字符识别(Optical Character Recognition,OCR)技术取得了飞速发展。与此同时,除了读取图片上的文字以外,理解文字背后的含义正成为工业界和学术界探索的课题。视觉信息抽取(Visual Information Extraction,VIE)任务正是一种从视觉富
学位
压缩感知是一种强大的信号采样技术,能够在对信号采样的同时完成压缩,极大地减轻了编码端的计算和存储负担。由于计算复杂度主要集中在解码端,重构算法的设计是压缩感知最核心的研究内容。传统图像/视频压缩感知重构算法理论可解释性较好,但重构性能不理想;近来提出的基于深度学习的重构算法通过数据驱动的方式直接学习观测值到重构信号之间的非线性映射,重构质量较高,且重构速度较快,但理论可解释性较差。针对现有图像/视
学位
为应对当前资源短缺、生态环境恶化、空间布局无序等问题,缓解生态保护与经济发展的矛盾,引发了关于国土空间重构的新需求。在深入推进“多规合一”与空间治理能力现代化的背景下,针对国土空间优化中面临的前沿技术应用不足等问题,探索出一套较为完善的优化流程和技术方法,有助于引导构建科学合理的功能空间布局。本文以山西省晋中市为研究区,从国土空间安全与发展相协调角度出发,在把握2009-2019年晋中市国土空间变
学位
针对目前黄淮海平原潮土区土质偏砂,土壤呼吸强度大,秸秆碳利用低,土壤有机质提升缓慢等问题,本研究以中国科学院封丘农业生态试验站长期试验地为研究对象,选取秸秆移除、秸秆覆盖还田、秸秆深还以及秸秆深还配施8、16、24%无机有机氮素,共9个处理,于试验开展第10年(2020年)秋玉米收获后,采集各处理0-10、10-20、20-30、30-40cm的土壤样品,测定土壤碳氮组分指标,分析不同秸秆还田及施
学位
随着社交平台的发展,人们每天面临海量的图像数据并习惯用它们表达自己的情感。如何从海量数据中提取人类关注的显著信息,并快速有效地分析图像表达的情感,成为计算机视觉的新挑战。这两个任务分别属于计算机视觉领域的视觉显著性预测和视觉情感分析,在视觉跟踪和情感图像检索等方面具有广阔的应用前景。然而,目前大多数研究对这两个课题进行独立的分析,忽略了图像情感与视觉显著之间的相互作用。心理研究表明,图像的情感区域
学位