基于语音驱动的人脸视频生成

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:tommy0229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸视频生成是计算机视觉中的研究热点,有着广泛的应用场景。语音驱动的人脸视频生成是指通过视觉与听觉双模态的输入来生成唇音同步的高自然度人脸视频。人脸视频生成任务的主要挑战是如何在保证人脸面部真实性的同时,生成语音同步且连贯的人脸视频。传统的人脸视频生成方法主要采用了基于卷积神经网络的自编码器模型,使用视频和音频的联合嵌入作为输入,并通过视频编码器和音频编码器分别进行特征提取,再将提取到的视频人物特征以及音频特征输入到解码器中,最终生成说话人脸的视频帧。现存在的问题是:首先,传统方法仅用L1损失来训练模型,容易出现生成人物面部图像较模糊、视觉质量不佳等问题;其次,传统方法仅将其考虑为多个单帧的视频生成,而不考虑视频帧间的时序关系,从而导致生成的视频存在不连贯性,且容易出现像素抖动等问题。针对上述问题,本文提出高质量唇音同步的生成对抗网络来完成人脸视频的生成任务,其中包括基于Dense Net的视觉质量判别器和基于LSTM-CBAM的音视频同步判别器,本文的主要创新工作如下:(1)提出了基于Dense Net的视觉质量判别模型,辅助生成更高质量的人脸视频。本文采用生成对抗网络作为人脸视频的生成方法,模型包含一个生成器和一个视觉质量判别器。生成器由自编码器构成,通过编码器对音频和视频进行特征编码,再由解码器重构出新的视频。视觉质量判别器采用Dense Net,用前馈方式将每一层都与其他层相连来提高特征重用,并使用L1损失和交叉熵损失共同约束训练模型,从而生成更高质量的人脸视频。本文在LRS2数据集上进行实验分析,结果表明加入Dense Net的视觉质量判别器生成的视频帧FID值降低了4.8%。(2)提出了基于LSTM-CBAM的音视频同步判别模型,辅助生成唇音同步的人脸视频。音视频同步判别器中利用LSTM模块来学习不同时刻下输入音频数据之间的联系,编码训练数据中的音频信息,并利用CBAM模块从通道和空间两个维度依次推断出注意力映射,对音频信息和嘴唇区域特征细化,从而判断口型与音频同步情况。本文在LRS2数据集上进行实验,结果表明加入LSTM模块和CBAM模块的音视频同步判别器生成的视频,准确率相比现有模型提高了6.89%。(3)提出了高质量唇音同步的生成对抗网络模型,生成真实自然的唇音同步人脸视频。该模型结合了基于Dense Net的视觉质量判别器和基于LSTM-CBAM的音视频同步判别器方法来完成人脸视频生成任务,通过生成对抗方法解决了传统方法生成的视频模糊问题,通过预训练的同步判别器解决了视频帧之间的不连贯问题。在LRS2和LRW数据集上进行实验,结果表明加入视觉质量判别器和音视频同步判别器有更出色的生成效果。
其他文献
随着我国经济日益增长,工业化进程也随之加快,城市产业布局发生了变化,工业生产日趋科技化,工业产业由原来的东北地区向东南沿海等发达地区转移。因此我国东北部地区出现了大量工业遗址,而这些遗址占据着城市的中心区域,长期的工业生产也给城市带来一定的环境压力。对于工业遗址的改造正在如火如荼的进行着,但由于国内遗址景观改造的不成熟,针对这些工业遗址中所存在的资源浪费、同质化严重、环境破坏和文化缺失等问题并没有
学位
头盔式飞行模拟器利用计算机图形显示技术生成逼真的飞行座舱内外虚拟环境,通过头盔显示器输入给飞行员以增强沉浸感。但由于佩戴了头盔显示器,飞行员在模拟训练过程中无法看到自身的手,手部交互受到阻碍。本课题采用视觉交互方案,通过计算机视觉对飞行员的手部进行跟踪和姿态估计,实现自然手部交互。手部跟踪是虚拟环境中视觉交互的基础和核心。针对手部运动过程运动姿态、尺度变化及复杂背景条件下鲁棒跟踪问题,本课题在相关
学位
随着物联网、大数据、云计算时代的到来,海量非结构化数据的深度分析处理(如语义理解、图像识别等)需要更高的计算速度和计算能效。然而传统基于冯·诺依曼架构的计算存储芯片技术,由于其存储单元与运算单元分离致使其存储容量和体积接近极限,忆阻器作为一种新型存算一体器件备受关注。此外,忆阻器具有结构简单、体积小、功耗低、集成度高、读写速度快等优点,且在外加电场调控下可以实现类似大脑学习行为的模拟,如神经元受刺
学位
生鲜产品是居民饮食起居中的消费必需品。近几年来,随着消费习惯的改变与融资金额不断提升的加持,整个生鲜电商行业未来的发展潜力极为可观,与此同时,业内竞争愈演愈烈。由此可见,生鲜电商行业如何提高用户持续购买意愿进而在激烈的市场竞争中获得一席之地成为行业的重要议题。本研究首先从渠道更迭视角选取前置仓与社区团购这两类较为典型的线上生鲜电商进行对比分析;其次,将两类生鲜电商平台的差异性和期望确认理论相结合对
学位
家校合作是教育现代化发展的重要组成,是提升教育质量的关键环节,上海作为我国基础教育改革发展的排头兵,有较为丰富的家校合作实践探索,但上海郊区的农村学校,家校合作仍然比较滞后,缺乏成熟的实践和有效的模式。本研究以上海市S学校为研究对象,根据该校家校合作的实际,基于重叠影响阈理论,采用文献研究法、问卷调查法、访谈法、案例研究法,以定量研究和质性研究相结合的形式进行。在调查统计与访谈结果的基础上,从认知
学位
随着社会对人才要求的逐步提升以及艺术设计专业的迅猛发展,我国高校关于艺术类创新创业课程长久以来进行着更新变革。PBL教学模式相对于传统教育模式更具备先进教学理念,合乎艺术设计专业的长远发展。文章在准确把握基本概念的前提下,将艺术设计创新创业活动在PBL教学模式基础上对课程进行改革研究。首先从PBL与“艺术设计创新创业活动”的相关概述着手,分析其基本概念,对基于PBL的“艺术设计创新创业活动”进行课
期刊
以某纯电动汽车集成电驱系统为研究对象,为提升纯电动汽车续驶里程,综合分析集成电驱系统效率提升方法,针对当前较少研究的电机控制器领域,文章建立绝缘栅双极型晶体管功率损耗模型,提出基于空间矢量脉冲宽度调制的变开关频率优化算法。仿真结果表明,变开关频率优化算法相比固频算法开关损耗可降低49.46%~50%,进一步台架试验及整车续航测试结果表明,优化后电驱系统在中国轻型汽车行驶工况下的驱动综合效率提升了1
期刊
近年来,随着我国经济不断的发展、企业规模的不断扩张,生态环境污染问题也逐渐凸显,环境成本的发生不可避免。只要企业生产经营活动或其他事项对环境造成影响和破坏,企业必然要为此承担责任,这最终会影响企业的经营成果。同时,不少理论和实践研究结果也指出,企业为了更好地进行环境的计划、质量和技术方面的管理,越来越倾向于将环境成本管理作为一种与环境相关的资金的规划手段,也有部分企业已经采取专业的方法单独对环境成
学位
随着改革开放的进程,医药产业越来越呈现出现代化的发展趋势。医药是人民生活的刚性需求,我国有着庞大的人口基数,因此医药消费量将始终维持在一个居高不下的局面,其行业的发展态势也蒸蒸日上。同时,在互联网浪潮袭来并成为时代主题的今天,社会生活模式带来的商业变革不断出现。医药冷链作为后起之秀伴随着互联网经济的腾飞、不断进步的冷链物流技术,加之物联网发展的机遇,一直保持着较快的发展速度。预计未来几年,医药冷链
学位
目前,C2C电子商务信用评价方法普遍采用基于e Bay的信用评价模型,该模型存在信用表达模糊、对卖家实际交易状况考察不足的问题,使得信用评价结果失真,难以体现卖家真实信用水平。如何完善现有信用评价方法以促进C2C电子商务优质发展是当务之急,本文针对现有信用评价模型存在的不足,并结合在线信用评价系统的特点,通过对评价文本的情感分析以及增加多维度信用评价影响因素构建了信用评价模型,进而考察卖家真实信用
学位