【摘 要】
:
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于
论文部分内容阅读
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于难以获取输入语音的真实身份,从而导致模型的生成效果不佳,并在一定程度上限制了模型的应用范围。因此,本文构建了基于条件生成对抗网络的语音驱动的静态人脸生成模型,利用属性对齐的语音-人脸数据集进行网络优化,以生成属性一致(性别、年龄)的高质量多样化静态人脸图像。同时,本文还构建了语音驱动的动态人脸生成模型,通过添加所设计的嘴唇判别器来改善现有模型中嘴唇运动与输入语音片段难以精确同步的问题,实现了嘴唇运动同步的高质量动态人脸序列生成。具体而言,本文的主要研究成果总结如下:1.构建了语音驱动的静态人脸生成模型,其利用引入自注意力机制的语音编码器精确提取语音信号中的听觉特征表示,并将听觉特征馈送到基于条件生成对抗网络的静态人脸生成器中,在添加投影模块的图像判别器的更新优化过程中生成出属性一致(性别、年龄)的静态人脸图像,在属性对齐的语音-人脸数据集上对模型进行训练和测试,取得了优越的生成效果。2.建立了一个属性对齐(性别+年龄)的语音-人脸数据集(Voice-Face)。该数据集中的语音片段和人脸图像分别来自不同的数据集,通过将这两个模态的数据按不同年龄段和性别进行组合,实现了语音信号与人脸图像之间属性组合的对应关系。3.构建了语音驱动的动态人脸生成模型,其以语音片段和身份人脸图像为输入,综合语音编码器提取的听觉特征向量和图像编码器提取的图像特征向量,送入动态人脸生成器中,并将所设计的嘴唇判别器与图像判别器共同作用,交替更新动态人脸生成器,使生成的动态人脸序列中的唇部运动与输入语音片段精确同步。在相关的定性定量实验上验证了模型具有优异的性能。
其他文献
无线信道场景环境复杂多变,为了提升通信系统的性能,需要对各信道场景配置不同的物理层技术,此时对无线信道场景进行准确的识别尤为重要。在信道场景识别研究中,不同信道场景的小尺度衰落统计特性差异明显,因此可以将其作为信道场景的特征。采用小尺度衰落统计特性分析方法可以获取符合信道场景要求的特征数据,能够进一步提升识别准确度。本文围绕小尺度衰落统计特性分析的瑞利信道场景识别问题展开理论与应用研究,主要研究工
本文以内蒙古呼伦贝尔市谢尔塔拉镇为研究区,在对耕地土壤养分(有机质、全氮、有效磷和有效钾)相关数据进行测定、收集的基础上,借助遥感光谱、空间统计学和GIS时空分析技术相结合的方法,经适用性分析,构建并优选了典型黑土区土壤养分预测模型;进而创新性的提出了能够定量消除耕地扰动因素的预测模型优化方法;最终,基于优化模型对典型黑土区近十年耕地土壤养分地球化学特征和耕地质量进行了综合评价。主要研究成果有:(
随着科学技术和制造工艺的不断发展进步,CMOS技术器件的特征尺寸也越来越逼近物理极限,给电路带来如短沟道效应、互连延时及寄生效应、功耗高等问题。这些问题严重制约着集成电路的进一步发展。因此,研究人员开始转向研究新型纳米技术器件以期替代传统CMOS器件。20世纪90年代提出了量子元胞自动机(Quantum-dot cellular automata,QCA),具有运算速度极快、集成度高和低功耗等优良
近年来,视频监控在构建信息化、智能化的城镇建设中起着至关重要的作用,行人重识别作为视频监控领域的关键技术,受到工业界与学术界的越来越多的关注。现有的行人重识别的工作大部分聚焦于监督学习,它们假设可以为每一对相机视图提供大量手动标记的匹配对,来学习该相机相对优化的特征表示或匹配度量函数。然而,这种规模的手动标签不仅在现实世界中收集起来成本非常昂贵,而且在许多情况下也是不可行,例如可能没有足够的训练人
随着现代物质水平的丰富,使人们对生活有了更多新的需求。用户不仅满足于产品可以完成某项特定功能,而是对产品有了更高的期待。产品在满足用户基本生理需求和安全需求的基础上,更加追求来自社会中的情感需求,因此情感化设计逐渐成为设计师的关注点。设计师希望通过情感化设计让用户感受到产品的温馨,为用户在使用产品时打造良好的情感体验,同时也能让用户更深刻地理解产品的价值。情感化设计离不开用户的心智,在用户心智与产
在我国城市养老问题日趋严重的背景下,在城市老城区养老院项目的设计前期进行科学合理的选址可以降低后期项目设计、施工、运营的难度,促进养老资源的合理配置。然而,老城区养老需求条件的复杂性、选址影响因素的多样性、选址规划方法的主观性等问题的存在导致养老院选址规划的科学性与准确性较低,一定程度上造成了养老资源的浪费。因此,笔者以提升老城区养老院项目选址规划的科学性为切入点,以Arcgis空间分析系统作为技
随着北斗系统导航定位技术的发展和在各个行业的应用,其对定位解算的精度要求也越来越高,因此如何提高定位精度成为学者和工程人员们研究的热点。伪距定位作为基本定位方法,在民用导航和高精度定位初始位置确定方面发挥重要作用。多路径效应作为影响定位精度的主要因素之一,在城市楼宇密集的地方不易削弱且严重的影响着定位精度。故而针对伪距定位和多路径误差这两个方面,本文主要的研究内容如下:(1)着重分析了导航定位前期
对海量的能耗供给数据进行可视化可以实现对能源供给设备实时产生的能耗数据的各种属性以图形化的方式直观的呈现给用户,为能耗供给数据可视化分析提供有力的保障。随着智慧城市的发展,供给数据变得日益复杂,基于能耗供给数据展示供给的态势信息以及监控数据异常是维护供给过程安全稳定的主要任务。针对现有的可视化系统不能很好的展示供给线路和多维层次信息,本文首先总结了时空数据和能耗供给的可视化技术,然后提出了基于多维
激光雷达是探测大气的一种有效手段,常应用于探测大气气溶胶分布、空气污染物分布、大气成分组成、大气气象参数等场景。激光雷达具有实时性好、时空分辨率高、重复性好等突出优点。为了提升激光雷达的移动性,增加探测范围,车载扫描激光雷达得到更多的重视。根据实际项目需求,本文以某车载大口径扫描激光雷达收发装置的研制为研究内容,论述了该系统的设计理论、设计模型和装调结果。该车载大口径扫描激光雷达收发装置光学系统由
大量的人类知识是以非结构化自然语言文本的形式传递的,因此使机器能够阅读和理解文本具有重要的意义。近年来,随着许多该领域数据集的涌现以及深度学习的进步,机器阅读理解在自然语言处理领域受到了广泛的关注。本文专注于研究基于语境化词嵌入与注意力方法的机器阅读理解模型,探索如何解决许多基线模型存在的准确度不足以及训练和推理速度缓慢的问题,主要研究成果如下:(1)部分经典基线模型无法有效结合上下文信息进行进一