基于表征流嵌入网络的动态表情识别

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yy136301854
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于动态的表情识别旨在将给定的视频分为几种基本的表情类别。在逐渐智能化的未来,情感识别必将渗入到更多的生活场景中,动态表情识别在人机交互中更发挥着至关重要的作用。人脸表情结构复杂、细节多变,难以一概而论,这使得表情识别极具挑战性。对于动态人脸表情识别,由于面部肌肉及纹理在时序上的动态变化往往难以捕捉,而且视频中的时间信息不能被完整地利用,从而导致整体的识别性能欠佳。本文以提升动态表情识别模型的准确性和鲁棒性为目标,构建了两个网络模型来实现动态表情识别。论文的主要研究工作如下:(1)研究了基于深度残差网络的动态表情识别。首先对不同深度的残差网络(Residual Network,Res Net)进行了研究,构建了四个不同深度残差网络的动态表情识别模型,该模型输入为连续的图像序列,将特征提取和分类整合在一个模型中,实现了端到端的动态表情识别;其次使用上述构建的四个动态表情识别模型在新生儿面部疼痛视频数据集上进行了实验;最后通过分析四个模型的表情识别准确性和模型收敛速度确定了进行改进的基准残差网络。(2)提出了一种基于表征流嵌入的深度残差网络(Residual Network Embedding Representation Flow,Res Net-ERF)。在深度残差网络中嵌入表征流层,将残差网络卷积层的输出特征图作为表征流层的输入,通过估计特征图之间的光流,使得网络模型能快速学习视频时间域的运动表示,获得视频空域和时域的融合信息。另外,相比于计算RGB图像之间的光流,特征图之间光流估计的计算量大大减小了。实验结果表明,基于表征流嵌入的深度残差网络不仅实现了端到端的训练,并且有效利用了视频中的时间信息,在新生儿面部疼痛视频数据集上的准确率达到了64.00%,比基准残差网络提升了8.00%。在AFEW和e NTERFACE’05数据集上的准确率分别为45.67%和53.75%。(3)为了提高Res Net-ERF的可解释性,提出了一种基于帧注意力机制的表征流嵌入网络(Residual Network Embedding Representation Flow with Frame Attention)。在Res Net-ERF中加入了帧注意力机制模块学习各个帧的多个关注权重,用于自适应地聚集特征向量以形成单个有区别的视频表示。经实验验证,在新生儿面部疼痛视频数据集准确率达到了66.50%,在Res Net-ERF的基础上准确率提升了2.50%。另外,在AFEW和e NTERFACE’05数据集上也达到了较好的效果,准确率分别为47.51%和55.42%,相较于Res Net-ERF模型准确率分别提升了1.84%和1.67%。
其他文献
Hopf分岔理论不仅是一种研究微分方程振荡周期解的经典理论,在工程中的自激振荡研究中,也有着重要的意义。近年来,随着非线性动力学研究的不断深入,动力学模型的刻画不止限于常微分模型,分数阶微积分和反应扩散项常常被用来描述更准确先进的动力学模型。大量研究表明,时滞对于非线性动力学至关重要。例如传染病模型的潜伏时滞,生态竞争模型的恐惧时滞都充分表明时滞会影响模型的动力学行为。目前,关于时滞的Hopf分岔
学位
随着社会的进步、民众生活水平的改善,物业管理已发展成为与经济社会发展、人民生活工作息息相关的朝阳行业,竞争也日益激烈。物业管理的主体物业服务公司以高强度、高密度、全天候的服务模式呈现,这种管理模式对物业服务从业人员提出了较高的要求。物业公司中绝大多数是服务在一线的基层员工,占比百分之八十以上,基层员工的服务水平直接体现了物业公司的整体水平。怎样进行基层员工管理,提升工作绩效、能力和产出是重点关键。
学位
移动互联网和物联网的发展使得数据流量激增,而且出现了更多的计算密集型、时延敏感型的应用。大规模云计算平台的部署使得用户可以将高强度的计算任务转移到计算资源丰富的远程云服务器上,但是传输延迟较大。为了减少云中的长回程传输延迟,移动边缘计算应运而生,以支持对延迟敏感的应用程序。在对移动边缘计算的研究中,对边缘服务器上协作缓存和卸载机制的研究是丰富的,一方面缓存机制可以将执行计算任务所需的程序、数据等资
学位
在雾霾天气下,大气中的悬浮细微颗粒影响光的传播路径,成像系统所采集到的视频或图像容易呈现出低对比度、色彩偏移以及清晰度受损等退化现象,不仅严重影响了图像的视觉效果也限制了数字图像在各领域的应用价值。因此,利用图像去雾技术,减少或消除雾霾对图像的影响,还原出图像原始细节具有重要的研究意义。近年来,图像去雾算法的研究已经成为计算机视觉领域的研究重点,尤其是基于深度学习的去雾算法取得了重大进展,然而多数
学位
太赫兹通信技术凭借超大带宽的优势有望成为未来6G(Sixth Generation)的关键技术之一。超大规模天线技术可以提供巨大的空间分集,提升频谱效率,同样有望在6G无线通信系统中起到关键作用。在基于移相器的超大规模多输入多输出(Ultra-Massive Multiple InputMultiple Output,UM-MIMO)混合预编码中,由于太赫兹频段的超大带宽,不同频率的子载波信道具有
学位
西湖龙井被誉为中国的“绿茶皇后”,自2009年以来,西湖龙井茶的价格一直飙升且居高不下,本文根据三次实地调查,采用1980—2016年间的顶级明前西湖龙井茶的价格数据,运用经济学原理,对顶级明前西湖龙井茶的需求收入弹性系数进行测算,测算结果表明:近年来,顶级明前西湖龙井茶的“身份”已由生活必需品转变成奢侈品了。在此基础上,运用计量经济模型进行了实证分析,实证结果表明:顶级明前西湖龙井茶产量极少、供
期刊
自5G商业化建设以来,信息与通信技术产业变革进程逐步加快,催生了高清视频慢直播、沉浸式互动体验及智慧人脸识别等新型应用,对终端设备的计算、存储资源提出了巨大挑战。而雾计算模式可以提供分散式的自主数据中心,以保障同一时间段内的多用户连接状态,降低设备负载压力,缓解信息过载现象。进一步地,针对边界雾节点的资源受限问题,融合计算迁移技术的相关研究被广泛开展,但仍缺乏对设备自给供电能力、资源分配公平性及协
学位
当今社会,科技水平发展日新月异,人工智能在其中扮演着重要的角色。智能机器人作为人工智能的一个典型代表,已经在仓储运输,医疗,救援,服务等诸多场景被广泛使用。基于视觉的同步定位与地图构建(SLAM,Simultaneous Localization and Mapping)技术是智能机器人研究领域里的关键技术。然而,传统的SLAM系统大多基于静态环境的假设,在动态环境下容易受到场景中动态物体的影响,
学位
随着信息与通信产业的发展,光纤通信系统得到了广泛的使用,日益增长的信号处理速率和通信容量的需求使光路集成度越来越高。近年来,绝缘体上硅(SOI)平台由于其与互补金属氧化物半导体(CMOS)工艺的良好兼容性,在光子集成领域得到了较高的关注,但由于其波导和包层之间高折射率差的存在,会引入显著的偏振相关损耗和偏振模色散,限制了硅基光电子器件的应用。偏振分集系统被提出以解决这一问题,偏振控制器件作为该系统
学位
癌症是一个重大的公共安全问题,威胁着人们的身体健康和家庭幸福。如果可以在治疗早期对高危患者进行识别,这将对治疗方法的选择和后期监测具有至关重要的作用。目前,临床普遍使用NCCN-IPI(National Comprehensive Cancer Network International Prognostic Index)对患者进行预后判断。近年来,许多研究发现,PET(Positron Emis
学位