基于音频驱动的视频生成设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:anjialaogong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸作为人类最具表现力和个性化的外在特征,是人们在相互沟通交流过程中用来表达情感的直接载体。面部表情和唇部姿态相结合,可以传递更多有效的信息,从而大幅度提升人们对语言的理解。口型与语音的同步很大程度上决定了人脸动画的优劣,所以借助音频中讲话人的音调、情感等因素,可生成逼真自然的人脸说话视频。音频驱动的人脸视频生成技术可以提高在线教育辅导、媒体新闻播报、影视剧编辑修正、大型三维游戏制作等方面的制作效率,提升用户视听层面的感受,为制作方和用户双方节省不必要的时间开销。因此,基于音频驱动人脸视频生成技术是目前比较具有现实意义和价值的研究。针对以上背景,本文将基于音频驱动的视频生成方法进行研究与设计,人脸说话视频包含三个流程模块,分别为:基于弱监督学习的三维人脸重构、基于音频驱动的人脸图像生成以及基于音频驱动的视频生成,使生成的人脸说话视频具备音视同步且人脸逼真自然的效果。论文主要完成以下工作:1.研究三维人脸重构方法,基于弱监督学习设计并实现输入人脸的三维人脸重构,此方法不使用额外的标签信息,将检测得到的人脸关键点位置信息作为弱监督信号,通过对参数提取网络的学习训练,最终得到与输入图像相似的三维人脸图像。2.研究音频信息与人脸图像间的相关性,设计并实现了基于音频信息到人脸表情和姿态参数的映射网络,该网络采用长短期记忆网络的原理,使参数间的映射更加准确。将得到的人脸表情和姿态参数与保存的三维人脸参数相融合,最终生成含有目标口型的人脸图像。3.研究人脸图像与视频帧背景间的匹配方法,提出一种可保证生成视频中含有自然人脸姿态的背景帧匹配方法,可对输入视频中局部人脸姿态进行保留,使生成的人脸视频帧足够自然。4.研究人脸视频生成方法,基于生成对抗网络的原理,提出一种可针对局部图像进行风格迁移的网络模型及损失函数,使生成的人脸视频帧自然逼真,生成的人脸视频流畅清晰。
其他文献
目前,全球经济发展呈现出一体化和国际分工深化的态势,知识等无形资产的重要地位在现代化企业发展的过程愈加凸显,知识推动着技术创新并成为了新的经济增长源,依靠知识产权作为企业发展驱动力的新型发展模式越来越被人们所重视。在这新型发展模式之中,核心专利成为了企业维持技术优势和增强市场竞争力的重要砝码,同时也是企业开展国际化经营并在激烈的国际市场竞争中获取优势地位的主要途径。专利本身具有的竞争力,使得专利主
随着社会对医疗健康越来越重视以及数字成像技术的发展,数字医学成像已经成为医疗专家诊疗患者的重要参考信息,在对患者病情进行定性、定量分析过程中,提取医学图像中的病理特征是至关重要的。由于图像分割技术可以从像素层面观察并处理图像特征,进而能更好地掌握图像的形状、纹理等特征信息,使得医学图像分割成为辅助医生诊疗的重要手段。但是,医学图像中往往存在实例对象繁多,目标对象之间边界模糊、对比度低,以及目标对象
目前,人体行为识别在诸如智能看护、智能交通行人预警、人体辅助医疗等各个领域的重要性不断凸显,它巨大的发展前景也吸引了愈来愈多的研究者投入到该领域。然而,由于各种诸如遮挡,光照等现实因素的影响及人体行为的多样性,想要对人体行为进行精准且快速地识别仍旧非常具有挑战性。目前,相较于直接基于视频流的行为识别方法,基于人体骨骼关键点的人体行为识别方法能屏蔽掉大部分背景因素的干扰和过滤掉视频流中RGB图像中巨
随着旅游市场的快速发展,在旅游景区中常会出现一些游客的异常行为,不仅危害了人生安全,也给社会造成许多负面影响,因此研究旅游景区的异常行为识别系统,具有较为重要的研究意义。旅游场景中的异常行为包括不文明行为和危险行为,其中不文明行为包含攀爬、乱涂乱画、乱扔垃圾等行为,危险行为包括翻越栏杆、落水等行为,本文利用图像处理、深度学习等技术对旅游景区中监控场景的游客行为进行检测与识别,若出现游客异常行为则发
企业创新是促进内部经济持续增长、提高外部竞争优势的重要驱动力,党的十九大报告中明确提出要把我国建设成创新型国家,因此,积极推动企业创新是实现高质量发展的必经之路。人力资本是创新的关键环节,激励员工工作的积极性、激发员工的潜力和创造力是促进创新、实现企业创新绩效的重要方式之一。员工持股计划(ESOP)作为一种内部有效的激励方法,在20世纪中期由美国经济学家Kelso提出后逐渐被企业接受,并在广泛的应
信息源点定位是社交网络领域中的最主要研究方向之一,是研究源点扩散的关键技术手段。对于传播源点定位这类问题,研究其源点以及传播趋势非常重要,但是由于网络节点错综复杂,很难探究其传播源点的数量以及传播方向和广度,这使得现有的传播溯源的方法很难适用于规模庞大且复杂的网络;此外,以往的方法很难提取潜在网络的深度表示,并且不能够自动用足够的参数来平衡不同的信息源。本文针对上述社交网络中的多源定位问题,结合深
水泥行业作为国民经济发展、生产建设不可或缺的基础原材工业,对国民经济的发展有着重要的作用。然而,近年来水泥行业的发展环境日趋恶劣,行业下行压力逐渐增大,对国民经济产生了不利的影响。企业发展离不开资金的支持,但行业不景气使得水泥行业的融资状况并不乐观,融资状况恶劣又使得企业发展更加困难,形成恶性循环。2015年底,中央提出供给侧结构性改革,推出“三去一降一补”政策,为行业发展指明了方向。在供给侧改革
飞秒激光烧蚀镀金光栅(ACG)表现为热熔融、热应力等损伤,由于烧蚀机制涉及到光场调制、热效应、场效应、薄膜损伤等,至今仍旧是该领域的研究重点。本文基于优化的双温模型,研究了飞秒激光辐照镀金光栅的动态过程,分析了镀金光栅的损伤机理,对进一步提高其损伤阈值(LIDT)并提升短脉冲高功率激光系统的性能具有一定的理论参考价值。具体的内容和结论如下:(1)定义与光场调制相关的吸收率,采用动态热物性参数和力学
学位
近年来,得益于人工智能的进步以及深度学习和神经网络的创新,计算机视觉领域近年来取得了长足的飞跃。小至计算机视觉领域,大至人类文明,非常多数据是存储在视频当中,所以对视频进行智能化分析与处理成为了热门选择。在视频智能化分析中,时序行为检测是非常关键的一项任务。它是指给定一段未经过修剪的人类活动长视频,学习模型要把人类行为片段的起止时间检测出来,更是要确定每一段人类行为的归属类别。同时它也是非常具有技