论文部分内容阅读
随着5G时代的来临,虚拟现实技术(Virtual Reality,VR)迎来了真正发展机遇。采用扬声器的音频对象空间渲染技术有望进一步提升VR的沉浸感知体验,而空间声像的实时、高精度重建对于提升扬声器声像重建技术的实用价值有重要意义。基于HRTF的平移技术(HRTF-based Panning,HP)与幅度平移技术(Amplitude Panning,AP)采用较少的扬声器便可重建音频对象,实用性很强。HP技术可为听者重建高度个性化的空间音频对象,但需要个性化头相关传输函数(head related transfer function,HRTF)和计算串声消除模块,实现复杂度高;AP技术实现简单,但忽略了听者对不同频段信号的扰动差异,重建的虚拟声像方位偏离了目标方位。针对HP技术的高复杂度问题,本文利用HRTF建立目标声像与扬声器重建声像的双耳信号等价模型,并将提取的扬声器增益向量(gain vector of loudspeakers,GVL)作为表征重建声场中听者声场扰动特性的频带增益因子,从而建立基于GVL的个性化虚拟声像重建模型;针对AP技术重建方位误差大的问题,本文从GVL中提取声道间差异(inter-channel difference,ICD),建立基于ICD的声像重建模型。主要工作如下:(1)建立基于GVL的个性化声像重建模型采用GVL直接调制扬声器信号以替代HP技术中的串声消除和HRTF个性化模块,并基于神经网络建立听者的人体形态学参数与对应的GVL(基于HRTF数据库提取)之间的映射关系,从而建立了一个听者依赖性的声像重建模型。在实现过程中分别通过扩充HRTF数据库、剔除冗余特征与无关特征的方式解决了训练样本少、人体参数过多的问题,并采用了效率较高的径向基函数(radial base function,RBF)神经网络模型。客观分析表明本文提出的基于GVL的个性化声像重建方法重建的双耳线索误差比HP技术降低了13.54%,主观评价表明提出的技术在方位、音色、平滑度方面的表现均优于HP技术。(2)建立基于ICD的声像重建模型在每个目标方位和扬声器方位下,对多个听者的GVL数据进行听觉频带分割后计算子带ICD数据,并提取最佳子带ICD,设计神经网络学习目标方位、扬声器方位与子带ICD的映射关系,从而建立了一个基于ICD的听者鲁棒性的声像重建模型。客观分析表明本文提出的基于ICD的声像重建方法重建的双耳线索误差比AP技术降低了22.73%,比最新的AP技术降低了13.88%。主观分析也表明提出的方法不仅降低了重建误差,还保持了声像的音色和平滑度。本文提出的两种方法是声像重建精度与复杂度之间的恰当平衡,既降低了计算复杂度,又有效地提高了声像的重建精度。