基于张量分解理论的三维人脸表情识别算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:dyqxcici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸表情是人类沟通情感、调节气氛或与他人互动的最有效、最自然、最突出的方式。人脸表情识别在计算机视觉、情感计算和多媒体研究中得到了广泛的关注和应用。传统的人脸表情识别算法借助向量这一数据表示来刻画各类表情特征,不仅会造成人脸表情数据样本的空间结构信息丢失,而且会因为维数过高而产生小样本与维数灾难问题。为解决此问题,我们引入高阶张量这一数据表示,并提出基于张量分解理论的三维人脸表情识别算法。一方面,借助张量的高阶表示,充分保留了三维人脸表情的空间结构信息;另一方面,借助张量稀疏低秩分解来刻画人脸表情特征中的相似性,实现数据有效降维;最后我们借助当前流行的大规模优化理论与方法,建立稀疏低秩张量优化模型,进而设计高效稳定的三维人脸表情识别算法。论文的主要贡献如下:1.提出了基于张量稀疏低秩分解的三维人脸表情识别理论框架。其中,张量建模思想与稀疏低秩张量分解技术,属于三维人脸表情识别方法论上的一个新技术。另外,高效求解这一稀疏低秩张量优化模型,设计快速稳健优化算法,需要深入分析相应的高阶张量优化理论,其研究结果将丰富在三维人脸表情识别中的大规模优化理论的研究内容与最优化理论;2.提出了一种基于低秩张量完备性(FERLr TC)的张量分解算法。为解决基于向量表示的特征提取导致维数过高而产生小样本与维数灾难问题,我们利用2D+3D人脸数据构造了4D张量,并通过对它的Tucker分解,利用核张量的logsum惩罚函数及对因子矩阵引入低秩约束,来保持张量投影空间的判别性。最后,利用秩降低策略以优化最小化的方式求解因子矩阵。完整的数值实验验证了该算法的有效性。这说明了Tucker分解作为一种强大的降维技术能够捕获4D张量的低秩结构,生成的低维特征在张量子空间中能较好地反映原始4D张量数据的本质;3.提出了一种基于先验信息的正交张量补全(OTDFPFER)算法。为解决4D张量表情样本通过张量分解后提取的低维特征在张量子空间中也表现相似的问题,我们将4D张量的第4模的相似矩阵导出的Laplacians图作为先验信息,对因子矩阵引入图嵌入正则化,保持低维空间的一致性。然后,设计交替方向法(ADM)与优化最小化(MM)方案来解决由此产生的张量补全问题。实验结果表明OTDFPFER对人脸表情识别有很好的效果,这说明了在算法中引入与因子矩阵相关的图嵌入框架比利用因子矩阵的低秩性结构更能表征样本间的相似性;4.提出了一种基于流形正则化(FERMROTD)的正交张量的三维人脸表情识别模型,在低维张量空间利用流形结构约束来实现三维张量表情样本局部结构(几何信息)的保持。块坐标下降算法(BCD)对此模型进行优化求解,并对模型的收敛性及复杂度进行了理论分析。同时建立了基于稳定点的一阶最优性条件。模型的有效性在BU-3DFE和Bosphorus数据库上得到了验证,实验结果也说明了利用流形正则化项比引入与因子矩阵相关的图嵌入框架,能更好地在低维张量子空间提取真实反映三维张量表情流形的低维特征。
其他文献
用历史制度主义的分析范式,检视老年教育政策的历史变迁与逻辑演变,是解读老年教育政策的一个新视角。改革开放以来,我国老年教育政策从初步探索到体系逐渐形成,呈现多元化和特色化的发展趋势。通过历史制度主义分析框架,采用扎根理论编码方式,梳理我国老年教育政策文本,审视我国老年教育政策的逻辑演变,可以发现,老年教育政策的发展受到教育实践定位、宏观制度环境、内生动力机制、教育发展理念、主导强化机制和关键时间节
具有纳米层状结构的三元化合物MAX相陶瓷由于其块体材料所表现出的高温氧化行为、高损伤容限和抗热冲击性等与摩擦学特性相关的特殊性能,使其有望应用于摩擦领域。已有研究表明,典型的MAX相如Ti3Si C2、Ti3AlC2等在干滑动摩擦条件下与低碳钢盘高速对磨时,摩擦学特性表现优良,这主要与其摩擦面上形成的由Ti和A位元素(Si或者Al)混合氧化物组成的摩擦学薄膜有关。本文利用钛铝碳的A位元素氧化物摩擦
随着综合交通运输体系的逐步完善和“一带一路”重大倡议的提出,多式联运已成为我国货物运输发展的必然趋势,铁水联运依靠低成本、大运量、衔接便利、安全可靠等优势成为多式联运体系的重要环节,同时,我国经济的“新常态”发展对交通运输总体能耗提出了新要求。铁水转运的作业时效性、有效衔接度、和高效低能耗发展更是未来我国交通运输调整结构、转型赋能的重点方向。集装箱铁水联运港站作为联运体系中的重要节点,其内部作业组
移动边缘计算(Mobile Edge Computing,MEC)是一种在网络边缘配置计算和存储资源的新兴计算范式,弥补云计算的不足,为攻克设备计算和存储资源受限无法满足新兴应用计算需求的难题提供新的解决方案,引起国内外相关业界的高度重视。设备通过计算卸载将计算密集型应用传输至边缘服务器执行,满足业务计算和低时延需求。然而,相比于云计算中的计算卸载,MEC的计算和存储资源有限。因此,在MEC的计算
图像分类是计算机视觉领域中非常经典的任务,在图像检索、医疗诊断、智能安防、自动驾驶等领域具有重要的理论意义和实用价值。近年来,由于深度卷积神经网络的应用,图像分类的性能取得了质的提升。但是,目前良好的分类性能大都是在清晰图像上获得的。然而,在许多实际应用中,比如自动驾驶、视频监控、可穿戴相机和医疗成像,获得的图像并不总是清晰的,相反,它们往往包含各种各样的退化。因此,对低质图像的研究是亟待解决并且
热致活化延迟荧光(TADF)材料作为第三代OLEDs发光材料,其优秀的性能、强大的系统兼容性以及巨大的市场潜力,给OLEDs照明和显示带来了新的活力。虽然目前TADF材料的研究和开发发展迅速,但其器件的效率和稳定性依然面临挑战,和实际应用相差甚远。器件性能与材料和器件中激发态的形成、衰变、激子的动态行为等最基本物理过程紧密相关,当电子和空穴分别从有机发光器件的两极注入并相遇,形成单线态激子、三线态
随着我国隧道建设规模的迅速扩大与地形、地质条件复杂多变性的日益突出,隧道塌方事故时有发生,给工程建设安全带来极大威胁,也造成巨大的经济损失和不良的社会影响,隧道塌方的原因和防治问题已经引起人们的极大关注。因此必须针对隧道塌方安全性问题开展系统深入的研究,掌握隧道塌方发生原因和机理、制定科学有效的控制对策,从而实现为塌方的有效预防、评估和处治提供依据,从根本上改善隧道施工安全现状。本文针对大断面隧道
视觉理解作为人工智能系统的重要组成部分,在无人驾驶、卫星监测等领域具有重要的应用价值。面对实际应用中的视觉场景复杂性和任务特殊性,如何实现更加精准的多粒度视觉理解是亟待解决的重要问题。针对现有视觉理解在小物体和语义边界区域不够准确的问题,本文以深度神经网络模型为基础,以实际应用为导向,探究不同的上下文建模方法,对视觉理解关键技术中的目标检测和语义分割展开研究。本论文通过挖掘不同任务的上下文信息,提
学位
随着通信技术、控制技术和计算机技术在铁路领域的飞速进步和应用,列车运行控制系统(简称“列控系统”)不断向着综合化、模块化的方向发展。安全计算机作为列控系统的核心部件,承载其大部分的安全功能,是一个典型的安全苛求系统。现代安全计算机正由传统的电子机械密集型向着软件密集型逐步过渡,软件所占比例逐步上升,规模也越来越大,由此产生了模块化的概念。为了实现安全计算机的高容错能力,采用分区的方式实现不同分组的