基于神经网络和生成式对抗网络的微表情识别方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:xiaollxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微表情研究属于交叉学科研究,其研究内容涉及计算机科学和心理学。心理学家认为人类产生微表情具有不自主性,因此,微表情可以反映人类内心的真实情感。近年来,微表情识别被广泛应用于心理治疗、公共安全和司法讯问等领域。微表情具有两个特点:1)持续时间短暂;2)发生时面部肌肉变化微弱。这两个特点导致微表情识别十分困难,即使是经过培训的专业人员对微表情进行人工识别,得到的识别准确率也不高。因此自动的、精确的、鲁棒的微表情识别算法是具有研究意义和实用价值的。近年来,随着深度学习理论的发展和计算机算力的增长,卷积神经网络和生成式对抗网络等深度学习算法被广泛应用于计算机视觉领域。本文针对微表情识别展开研究,主要工作如下:(1)给出一种融合时空注意力机制和残差连接的微表情识别网络Res Net AM(Residual Network with Attention Mechanism)。针对微表情识别的两个特点,首先利用Farneback光流法计算微表情视频序列帧之间的光流信息以便更好地表现面部肌肉的细微运动。其次设计微表情注意力模块,该模块由空间注意力通道和时间注意力通道构成并行双通道结构,其中空间注意力通道可以增强图像中出现微表情的局部区域的权重,时间注意力通道可以增强微表情视频序列中有表情帧的权重。最后,为了避免深度神经网络训练时的退化问题,在Res Net AM网络中引入残差连接。在CASME II、SMIC-HS、SAMM和联合数据库四个数据库上使用留一交叉验证法进行微表情三分类实验,Res Net AM在上述四个数据库上的UAR值分别达到0.9333、0.8333、0.7143、0.8509,UF1值分别达到0.8519、0.7995、0.4753、0.7778。(2)给出一种基于生成式对抗网络的微表情识别网络ME-GAN(Micro-Expression Generative Adversarial Networks)。ME-GAN网络具有五个微表情生成分支:1)开心类微表情生成分支;2)惊讶类微表情生成分支;3)生气类微表情生成分支;4)厌恶类微表情生成分支;5)伤心类微表情生成分支。在训练阶段,使用对应种类的微表情样本训练每个微表情生成分支中的生成式对抗网络,直至微表情生成分支可以生成特定种类的微表情图像。在识别阶段,将五个微表情生成分支生成的图像与原图像计算L1误差,误差最小的分支类别即为识别结果。在CASME II和SAMM两个数据库上使用留一交叉验证法进行微表情五分类实验。ME-GAN在CASME II数据库上的UF1值为0.8809,UAR值为0.8396,在SAMM数据库上的UF1值为0.8024,UAR值为0.8056。(3)设计并实现一个在线微表情识别系统,利用图形化界面使得微表情识别更简便,有助于推广微表情研究的成果。
其他文献
印刷线路板(Printed Circuit Board,PCB)的缺陷检测已经成为电子制造业保证产品质量和降低制造成本的关键过程。目前自动光学检测(Automatic Optic Inspection,AOI)是PCB缺陷检测的主要发展方向,AOI首先将标准图像和采集图像进行配准,然后再对两者进行比对和缺陷识别。在该过程中图像配准的优劣直接影响缺陷检测的效率和精度。PCB图像具有高分辨率的特点,现
学位
数字水印以人眼不易察觉的方式将秘密信息隐藏在载体对象中,以实现对目标的版权保护、身份认证、篡改检测等。其中,可逆水印技术能够无损恢复原始数字载体,在如档案图像、医学图像、军事图像等对原始数据有高质量要求的领域具有重要的意义。近年来,深度学习技术发展迅速,在很多研究领域都取得了巨大突破。但由于可逆水印算法往往涉及一些复杂而又巧妙的机制设计,以此在保证可逆性的同时兼顾水印容量和图像质量,而深度神经网络
学位
作为现代经济的核心,金融既是实体经济的血脉,也深刻影响着收入分配。但近年来,金融“脱实向虚”的趋势和经济金融化的问题不断凸显。经济金融化具有自发性,需要政府进行调控干预。从引致增长的效应看,节制的金融化有助于社会财富收入的增长,但过度的金融化则会产生抑制作用和增长停滞效应;从引致贫困的效应看,金融化会拉大贫富差距,过度的金融化将严重拉低劳动者参与社会财富分配的份额,无益于我国按劳分配的主体分配制度
期刊
碰撞检测是虚拟仿真模拟中的一个重要研究问题。随着虚拟环境的复杂度不断增大,虚拟仿真应用对物体碰撞检测精度和速度的需求也逐渐提高。目前的层次包围盒碰撞检测算法已经在准确性方面达到了一定的效果,但是随着虚拟环境复杂度的提升,其实时性需要进一步提高。因此,通过对不同类型包围盒的特点进行综合分析,本文对传统混合包围盒碰撞检测算法进行改进,主要研究工作如下:(1)对基于双重结构的层次包围盒碰撞检测算法进行改
学位
给定一张图像和一个自然语言描述的关于图像的问题,视觉问答任务旨在学习模型,根据问题对图像内容进行细粒度理解,并在此之上展开视觉推理以给出准确的预测答案。该任务是近年来人工智能、计算机视觉等领域的研究热点。现有视觉问答方法通常只关注图像中的视觉物体,忽略对图像中关键文本内容的理解,从而限制对图像内容理解的深度和精度。为解决该问题,针对图像中场景文本理解的“场景文本视觉问答”任务应运而生。为理解图像中
学位
高端瓷砖对图案精度要求非常高,一般通过工业3D打印机在瓷砖毛坯上打印图案再烧制完成。工业3D打印机有6~12个通道,每个颜色喷头有4个量化级别。将标准图像格式的瓷砖设计图分成打印机对应的6~12个通道,得到分色图(256个量化级别),再将分色图转换为颜色喷头所需的多级半色调图(4个量化级别),这个过程被称为半色调过程。据调查,分色和多级半色调图生成技术及其系统基本都是国外控制,因此,这类关键技术给
学位
无线能量传输(WET)通过电磁波为散落的传感器节点持续供电,从而使无线传感器网络(WSN)的使用寿命得到延长。但是,提供的能量可能仍然无法满足传感器节点的能量需求。这个问题可以通过部署冗余传感器节点来缓解。同一监测区域内可部署多个传感器节点,它们同时接收能量以增加收集的总能量,并执行休眠/唤醒调度减少每个节点的能量消耗。针对不同场景,本文研究了冗余部署模型在无线传感网络(WSN)中应用的问题。(1
学位
当前,精于理性计算的智能系统还不能自然地与人类进行情感交互。为了实现真正的人类智能(语义理解+记忆情感),研究者们提出了情感计算的概念,希望赋予计算机识别和表达情绪的能力。现实场景中人们主要通过表情、姿势和声音来强调特定的观点或表达情绪。这种方式不仅涉及到词汇/语法,而且视觉和听觉也是重要的信息传达方式。为了准确识别人类的情绪,我们需要开展相应的情绪分析工作:结合深度神经网络技术实现多模态数据——
学位
多轮文本对话是人机交互的重要方式,是当前工业界和学术界的热门研究方向。近年来,随着智能对话系统的发展,人们开始更青睐那些能给予情绪支持的对话系统。这种具有情绪支持能力的对话系统,可以识别出求助者低沉的情绪,在表达同理心和安抚情绪的同时帮助其寻求解决困难的途径,以缓解求助者情绪压力。然而如何根据对话上下文准确地识别用户的情绪状态,如何为用户提供有效的情绪支持,是情绪支持对话任务的难点问题。立足于这两
学位
时序动作检测任务旨在让计算机理解视频的局部时序内容语义并输出视频内的动作片段相关信息,具体为检测视频内动作片段的开始时间、结束时间以及所涉及的动作类别。考虑到视频数据人工标记的成本高昂,目前的研究热点是如何在降低样本标记成本的情况下完成时序动作检测任务,依据训练样本标记信息的完整程度可将时序动作检测任务细分为三种学习范式:1)提供完整帧级别标记的全监督学习范式;2)提供极少数帧级别标记的点监督学习
学位