论文部分内容阅读
2016年,随着HTCvive、OculusRift等虚拟现实设备的热销,激发了人们对于虚拟现实体验的狂热追求。但现有技术提供的听觉体验无法准确表现虚拟现实视频场景中声源的空间位置感,从而无法提供完整的沉浸式体验。为了解决这一问题,Oculus等虚拟现实设备制造商纷纷与Visisonics等三维音频技术提供商合作,通过虚拟现实技术和三维音频技术的结合,弥补虚拟现实在听音体验上的短板。目前,主流的三维音频技术可分为多声道三维音频技术与双耳三维音频技术。由于双耳三维具有便携性,且只需要耳机就可实现的特性,更适用于目前头盔式为主流的虚拟现实设备。因此,双耳三维音频技术与虚拟现实的结合,成为了目前业界的研究热点。在进行虚拟现实场景的三维音频渲染时,需要重建声源与听音者间的方位角、高度角以及距离。本文针对其中的距离恢复问题开展了研究。当前常用的声源距离恢复技术,主要是采用不同距离的头相关传递函数进行直达声的模拟,从而恢复信号的强度及双耳间差异,之后再添加基于感知的混响,使音频信号更加自然。但该混响不表现虚拟现实场景中声源与听音者间的空间位置关系,会使用户产生与视频场景不匹配的听觉体验。针对此问题,本文设计了结合距离变化函数和基于物理特性的人工混响的距离恢复算法,该方法可以根据声源和听音者间的相对位置,利用距离变化函数得到不同距离的头相关传递函数,生成对应的直达声信号,之后再通过基于物理特性的人工混响进行渲染,添加符合声源、听音点相对位置及声学环境物理特性的混响。主观听音距离感知实验结果证明本文所提的方法,对于0.5米内的近场声源,距离感知误差相比现有方法平均降低了约5厘米,对于1米内的声源,其距离感知结果的稳定性有所提高。此外由于传统基于物理特性的人工混响需要计算声波在听音环境中多个表面处的若干次反射情况,因此需要较长时间才能完成混响的模拟,在某些情况下计算混响的时间会超过100秒,因此无法直接用于虚拟现实场景中的三维音频渲染。对此本文通过主观听音实验确定声波反射阶数对于距离感知的影响,确定最小反射阶数,然后依据混响可分成早期混响和后期混响的特性,利用回馈延迟滤波器网,快速模拟后期混响,实现虚拟现实设备上的基于物理特性的人工混响低延迟添加。