低比特率真实感人脸视频编码研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：leezuo

【摘要】

：

人机情感接口(人脸表情运动参数的跟踪和提取、表情识别、参数传输以及高真实感语音同步人脸动画的合成)是当今计算机视觉和图形学领域的一个研究热点,它在人机交互、视频编

【作者】

：

於俊

【出处】

：

中国科学技术大学

【发表日期】

：

2010年期

【关键词】

：

人脸表情运动跟踪和提取人脸表情识别参数编码 MPEG-4 人脸动画粒子滤波

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人机情感接口(人脸表情运动参数的跟踪和提取、表情识别、参数传输以及高真实感语音同步人脸动画的合成)是当今计算机视觉和图形学领域的一个研究热点,它在人机交互、视频编码、娱乐和虚拟现实等方面有着非常多的应用。在过去的三十年中,虽然相关领域取得了长足的发展与进步,但仍存在许多亟待解决的问题。其中,如何在发送端根据人脸视频快速获取准确的人脸运动和表情参数,并根据这些人脸运动和表情参数,在接收端合成高真实感的语音同步人脸动画是一个富于挑战性的研究课题。本课题涉及运动分析、人脸表情识别、信源和信道编码、人脸运动学和动力学建模及其表示、协同发音机制建模以及文本驱动人脸动画等诸问题。本文以极低比特率下模型基人脸视频编、解码为研究对象,对相关的人机情感接口问题进行深入研究,重点探讨人脸表情运动参数的跟踪和提取、参数化视频编码以及高真实感语音同步人脸动画合成等问题。本文的创新点和主要工作如下：(1)提出了一种基于单幅帧图像的人脸自动适配算法。首先,从输入视频中检测出首帧包含目标人脸的图像,然后以该图像为处理对象,利用改进的支持向量机算法(SVM)实现对其中的人脸的定位,利用Adaboost+Camshift+AAM (Active appearance model)算法实现对人脸特征点的定位：接着,利用上述人脸及其特征点的特定信息,在编码端对一个简洁人脸通用三维模型进行特定化处理以得到待处理人脸的构造参数(FDP:Facial definition parameter);在此基础上,构建在解码端使用的特定化精细人脸三维模型。(2)提出了一种基于在线模型匹配与更新的人脸三维表情运动跟踪算法。具体言之,利用自适应的统计观测模型来建立在线外观模型,利用自适应的状态转移模型和改进的粒子滤波算法实现对观测场景的确定性和随机化搜索,同时通过融合目标的多种测量信息以减少光照和个体相关性的影响。利用所提出的人脸三维表情运动跟踪算法既可以得到反映目标人脸整体姿态的全局刚体运动参数,又可以得到反映人脸表情变化的局部非刚体运动参数。(3)对人脸表情识别算法进行了深入研究。首先提出了一种静态人脸表情识别算法,该算法在提取人脸表情运动参数后,根据与表情相关的生理学方面的知识完成对表情的分类识别。接着,为了克服静态人脸表情识别算法的不足,提出了一种结合表情静、动态信息的表情识别算法。该算法在多表情马尔可夫链模型和粒子滤波的框架下结合表情的生理模型完成对人脸运动和表情的同步识别。(4)提出了一种面向MPEG-4人脸表情运动参数(FAP:Facial animation parameter)的压缩算法。该算法利用面部运动基函数(FBF)来组合FAP,可以在无编码延迟的情况下,通过帧间和帧内编码来达到降低码率的目的。(5)提出了一种基于MPEG-4的三维人脸表情动画合成算法。该算法采用参数模型和肌肉模型相结合的方式来生成人脸动画,可在FAP流的驱动下生成真实感较强的三维人脸表情动画。此外,还对协同发音机制进行了建模,利用该模型可生成与英语音素对应的人脸视素动作。这样,根据由文本解析得到的音素信息、附加的表情信息和持续时间信息,对视素之间的动画采用非均匀有理B样条函数进行插值可以获得与英语语音同步的表情人脸动画。(6)在前述研究的基础上,在国际上首次设计并实现了一个集人脸表情运动参数跟踪／提取、表情识别、参数传输以及真实感语音同步人脸动画合成等功能的视频编解码演示系统。该演示系统可在解码端根据解码后的参数合成真实感的人脸动画。

其他文献

丁苯肽注射液治疗急性脑梗死的疗效和预后因素分析

背景:脑梗死是严重危害人类健康和生命的常见疾病之一。我国是脑血管疾病高发国家,已成为我国城市和农村人口的第一位致残和死亡原因。急性脑梗死占全部脑卒中患者的80%左右,

学位

丁苯酞注射液急性脑梗死疗效安全预后分析

基于拓扑学和统计学的无字库汉字智能造字研究

以文化和技术角度描述的无字库汉字智能造字理论研究已经取得了丰富的成果,设计开发的汉字智能造字软件系统成功地实现了汉字字符集GB18030-2005中规定的70244个汉字的智能造

学位

汉字智能造字汉字基元汉字结构汉字编码拓扑理论认知机理信息熵

光盘版权保护系统若干关键问题的研究

随着数字多媒体技术的飞速发展，数字版权管理系统日渐引起人们的重视。而国内光盘应用市场的扩展，使得基于光盘的数字版权管理系统的研究已成为当前迫切需要解决的问题。基于光

学位

数字水印广播加密混合密码体制

浅析健美操音乐的选用与剪辑

健美操是形体动作与音乐的完美结合,二者缺一不可。因此音乐在整个健美操中起到至关重要的作用。在编排健美操的过程中可以根据音乐的主题、旋律、节奏等进行分析,从而拟定健

期刊

健美操主题旋律节奏

浅谈高校档案管理工作应注意的几个问题

档案管理工作是当前新背景与新形势下各高校的重点工作之一，一个学校的发展历史主要通过其档案来记载，所以档案的资源性对高校的意义十分重大，同时，档案管理也是当前高校管理中的

期刊

高校档案管理规范化信息化

新型二阶统计描述子及其在物体检测与跟踪方面的应用

随着在视频监控、自然人机交互系统和智能交通系统中越来越多地应用,物体检测与跟踪技术已经成为计算机视觉领域的关键技术之一。本文针对物体检测与跟踪任务中普遍存在的类

学位

物体检测物体跟踪区域描述子协方差矩阵核方法集成学习

大数据时代的图书馆探讨

随着大数据时代迅速来临，给社会文化与各行各业都带来了巨大变革，图书馆同样不例外。就大数据来说，图书馆界先后进行了一系列学术研究以及实践，但图书馆事业当中大数据的运用仍然

期刊

大数据时代图书馆发展

虚拟人眼模型及其运动与表情的研究

人类作为现实生活的主体,也是虚拟世界的活动主体。随着计算机视觉与虚拟现实技术的发展,虚拟人物设计得到越来越多的关注。人眼是心灵的窗口,人眼模型及其表情合成的效果直

学位

三维肌肉控制人眼模型归一化肌肉收缩量多线谱人眼运动及表情MPEG-4

超声造影与微血管成像在甲状腺结节鉴别诊断中的应用价值对照研究

目的对照研究超声造影与微血管成像在甲状腺结节鉴别诊断中的应用价值，为甲状腺结节的临床诊断提供参考。方法选取甲状腺结节患者100例（136个病灶），均在行超声造影与微血管检查，与

期刊

超声造影微血管成像甲状腺结节

英语教学，因“画”而精彩——浅谈在农村初中英语教学中如何正确使用简笔画

摘要：随着现代化科学的发展，特别是电脑技术的进一步普及和应用，各种先进的教学手段已经进入到英语课堂教学。他们的到来使英语教学更为生动、有趣且易于被学生接受。但农村中学

期刊

农村学校初中英语教学简笔画

低比特率真实感人脸视频编码研究

其他学术论文