论文部分内容阅读
语音复原效应(Phonemic Restoration Effect)是一种听觉感知现象,即在某些特定条件下,大脑会自动将缺失的语音进行恢复,使缺失的语音信号听上去似乎是完整的。这一现象反映了人在噪声等特殊环境下可以对缺失的语音信号进行修复的一种能力。目前对这一现象产生的原因,有两个公认的假设:一是基于各个发音器官的协同发音作用,即发音运动的连续性,二是基于上下文语义。这两个假设相互独立相互矛盾,但均未得到有力的证实。第一个假设中提到,人类在发出语音信号时,其发音器官,如嘴唇、舌头、下颌等,在协同发音的作用下,它们高度合作、相互制约,是无法自由地、骤然地运动的,而是有一条平滑而连续的运动轨迹。而人类的大脑即通过感知这种连续性,来对缺失的语音信号进行修复。为验证上面提到的第一个假设,本文提出了基于发音运动连续性的语音修复的框架。该框架的整体修复流程如下:对于有信号缺失的语音,将它输入到修复系统中,首先会对该信号进行端点检测,将现存的语音信号片段都检测出来;然后对这些语音信号进行相应的声学参数的提取,再利用发音运动与语音信号之间的双向映射模型,把它们映射成对应的发音运动特征;再将所得的发音运动特征按照时间的顺序连接起来,因为语音信号是是有缺失的,所以所得的发音运动特征自然也是有缺失的,而根据发音运动是连续的这一特点,可以利用插值等方法,将其缺失的部分进行补齐;最后再利用前面提到的双向映射模型,将补齐的发音运动特征映射成相应的声学特征,并合成语音填补到原来有缺失的语音信号中,这样即实现了语音的修复。为实现上述提到的语音修复框架,本研究首先建立了基于深度神经网络(Deep Neural Network,DNN)的语音信号与发音器官运动之间的双向映射模型,期间研究了不同的发音运动特征对于映射模型的影响,并根据具体问题,探究了最合适的发音运动参数、改进了传统的深度神经网络映射模型,提出了带有瓶颈特征的DNN层级结构模型;其次便是根据发音器官运动的连续性,利用三次样条插值(Cubic Spline Interpolation)的方法来对缺失的发音运动特征进行修复,进而实现对语音信号的修复。最后本研究从MNGU0数据库中选取了25句音频,手动对这些音频的语音信号的一部分做了替换,并利用该语音修复的框架对其进行修复。实验结果表明,本文提出的语音修复方法对于提高缺失语音信号的感知质量(Perceptual Evaluation of Speech Quality,PESQ)是十分有效的,并且在一定程度上验证了语音复原效应的第一个假设。