【摘 要】
:
由于面部表情是人类传递情感和状态的重要形式,表情识别已成为人工智能领域不可或缺的一部分,也是计算机视觉最热门的研究领域之一。随着深度学习的浪潮爆发以来,计算机视觉和机器人技术取得了长足的进步,但是表情识别领域的难题仍然亟待解决。近年来,一系列表情数据库的建立,为基于深度学习的表情识别提供了源动力,推动了这个领域的飞速发展。表情识别数据库可分为两个大类,一个是实验室环境的表情数据库,一个是真实环境的
论文部分内容阅读
由于面部表情是人类传递情感和状态的重要形式,表情识别已成为人工智能领域不可或缺的一部分,也是计算机视觉最热门的研究领域之一。随着深度学习的浪潮爆发以来,计算机视觉和机器人技术取得了长足的进步,但是表情识别领域的难题仍然亟待解决。近年来,一系列表情数据库的建立,为基于深度学习的表情识别提供了源动力,推动了这个领域的飞速发展。表情识别数据库可分为两个大类,一个是实验室环境的表情数据库,一个是真实环境的表情数据库。基于深度学习的表情识别方法在实验室环境的表情数据库上已经达到了几乎饱和的准确率,然而,这些算法在真实环境的表情数据库上的性能却急剧下降。这是由于真实环境的表情图像是从互联网或电影片段中收集而来,它们广泛受到姿态、遮挡、光照等因素的影响。这些真实环境中的因素恰恰成为了表情识别的不利条件,也成为了科研人员努力缓解的方向。面向真实环境的表情识别技术是表情识别迈向智能化的必由之路。针对真实环境的表情图像面临的问题,本文基于三维人脸特征重建和图深度学习的方法来提高真实环境面部表情识别的准确率和鲁棒性。具体来说,本文的研究内容如下:(1)分析了三维特征重建和图深度学习这两种技术在人脸图像分析中的应用,列举了这两种技术中较为成熟的几种方案。接着对这两种技术应用于面部表情识别进行了可行性分析以及提出了相应的应用方案。(2)调研了常用的真实环境面部表情识别算法,分析了本文算法和相关算法的区别,对面向姿态问题、面向遮挡问题、面向复杂环境问题的表情识别中的部分算法进行了复现,对比了各个算法的实验结果。(3)基于三维人脸特征重建和图深度学习技术,提出了新颖的端到端可训练深度神经网络模型(3D Face Feature Reconstruction and Learning Network,3DF-RLN),以缓解真实环境面部表情识别的难题。3DF-RLN主要包含四个模块:三维人脸特征重建,基于卷积神经网络的外观通道,基于图卷积网络的几何通道,融合识别模块。(4)3DF-RLN首先从二维人脸图像重构面部外观特征和面部几何特征,然后使用卷积神经网络和图卷积网络这两种异质网络分别提取两种面部特征中包含的表情信息,接着融合外观通道和几何通道的输出,并预测表情类别。该方法在图卷积网络中使用可学习的邻接矩阵,在实现表情识别任务的同时获得了面部关键点的邻接关系和重要性。(5)对提出的3DF-RLN进行了充分的消融实验,并且在三个面部表情数据集上进行了大量实验:Multi-PIE、RAF-DB、Affect Net。实验结果表明,本文提出的方法比当前流行的方法取得了更好的效果,证明了本文模型的有效性。
其他文献
调制信号分类指识别和分类所有接收信号的调制模式,以保证能够准确地解调信号,从而判断发送信号的类型,该技术已经广泛应用于军用和民用领域。近年来,深度学习以其出色的数据表达能力被应用到通信领域,实现了调制信号自动识别和分类。现有基于深度学习的调制信号分类大多是基于中心式和去中心式,但这些方法都不适用于子网共存且数据类型不匹配的异构无线网络(Heterogeneous Wireless Network,
命名实体识别作为自然语言处理领域的一项核心基础任务,是分析和管理海量文本信息的关键技术手段,在大数据时代具有重要的应用和经济意义。尤其是生物医学领域中,随着互联网的高速发展,大量相关的医疗文本数据以非结构化或者半结构化的形式存储于网络之上,并且这些数字化的信息中蕴含着巨大的社会价值。因此如何充分地从中挖掘出潜在的有价值信息,有效缓解信息严重过剩所带来的挑战,已经成为了信息科学领域的一个热门研究方向
自动音频标注是一项多模态文本生成任务,旨在要求系统根据输入的音频片段,生成一段文字来描述音频。相比于传统的音频分类等任务,自动音频标注任务更为复杂,但也有着更广阔的应用前景,例如为残障人士提供便利服务等。已有的工作主要注重于探索新的方法以及如何更好地利用已有的数据集来改善模型的表现。目前,学界很少有工作利用预加载模型或是预训练手段来改善音频标注系统的表现。因此,本文针对自动音频标注这项多模态任务,
随着社会时代的快速发展,我国社会主要矛盾己经转化为人民日益增长的美好生活需要和不平衡不充分发展之间的矛盾。与之相应,我国的民族工作也呈现出新的发展趋势,民族团结进步事业面临着新的挑战和困难,如何推动民族创建工作在新的历史时期保持鲜活生命力,是新的历史时期下亟需思考的深刻命题。而全面深入持久开展民族团结进步创建工作,是推进民族团结进步事业发展的关键一招,是提高各族人民幸福感的重要保障,也是实现中华民
在机械化生产成为趋势的今天,机械系统的平稳运作是保证机械生产的效率和质量的根本,所以在其生产过程中故障的监测十分重要。我们可以通过机械故障声检测来实现这一目标。针对机械音频训练数据集中只有正常音频,没有异常音频的特点,我们利用字典学习模型抓住音频最本质的特征来获得它们在无监督单分类器上的良好表现,本文主要工作总结如下:第一,针对机械运行中固有的物理特性,我们对其提取机械特性参数,并将其作为特征进行
热红外成像技术是判定物体热辐射能量的一种被动红外技术,因其能突破人类视觉局限,被广泛运用于城市安防监控等领域。然而,红外热辐射具有严重的反射现象,通常在含有光滑且发射率低的场景中,具有热辐射的行人或其他物体易产生红外热辐射伪影,干扰了红外图像的后续检测和识别处理。针对解决热辐射反射伪影造成的干扰和充分利用伪影信息,以及热成像目标检测算法需考虑实时性和移动嵌入平台的计算能力,本文研究目的是对红外图像
化疗已被广泛应用于癌症的临床治疗,但其对身体正常组织伤害较大并且肿瘤会产生耐药性。光疗作为一种先进的癌症治疗方法,因其低细胞毒性、高时空选择性和无创性等优点受到了广泛关注,其中包括光热治疗(PTT)和光动力治疗(PDT)。此外,化学动力学治疗(CDT)因其不需要外部能量、细胞毒性小和响应肿瘤微环境等优点,常常与PTT、PDT等治疗方法协同作用,PTT产生的热量有助于增加瘤内血流量和氧合作用,从而促
面对互联网上海量的文本信息,有效地进行信息检索时每个互联网用户的重要需求。而文本结构分析就是信息检索等一系列文本相关工作中的重要基础和关键步骤。针对目前对于流式文本文件的结构分析研究较少,且通常局限于一定规则或语言类型的问题,本文提出并实现了一种文本标题层次结构识别的方法,对以Word文档为主的流式文件识别文本的标题层次结构,通过对文本标题结构的识别来实现对文本结构的分析。经过实验发现,使用支持向
随着科学技术进步与人类经济社会的发展,各类电子传感装置已被广泛应用,伴随着人民生活水平的提升,智能手机、智能手表等智能装置也将越来越流行。人类普遍携智能装备外出,旅行方式也越来越多样化,包括普通的走路、骑马、驾车,在都市中都搭乘公共汽车、轨道交通,长距离旅行时搭乘列车、航空客机等交通工具。此时,各种传感装置采集到海量的轨迹信息,通过挖掘这些轨迹信息,能够获取很多有价值的资讯,并可广泛地用其服务于活
数字经济的发展促进了数据要素在不同市场及市场中各个主体间的流动分配,数字化转型为企业与外部提供了信息沟通渠道,增强了企业数字治理能力。通过选取A股上市公司2014—2020年面板数据为研究样本,从微观主体和宏观区域双视角探寻数字化转型能否缓解市场价值对内在价值的偏离程度。研究结果表明,企业数字化转型能显著降低股票市场价值对内在价值的偏离程度,在数字经济发展水平越高的地区,这种影响作用越显著;进一步