论文部分内容阅读
人耳听力具有较强的自适应调整能力,其中对发音人语速的快慢、音量的大小和基频的高低的自适应调整能力是非常高的。目前的语音识别系统(本文中主要是指IBM的ViaVoice语音识别系统)对语速、音量和音调都具有一定的自适应调整能力。但对于不同的发音人来说这些自适应调整能力都是不够的,往往在识别那些语速过快或过慢、音量过大或过小和音调过高或过低的语音的时候得到的识别率都比较低。本文主要介绍了作者针对这一问题所作的关于语音调整的技术与方法的研究工作,其中包括(1)根据汉语语音发音时每一个音节都含有元音,元音长度占音节长度的主要部分但是却不包含发音的主要信息这些特点,提出在语音的元音部分利用相关系数寻找相似波形,然后对元音部分进行几个相似波形的压缩或扩展的方法来改变元音的长度进而调整语速。(2)通过计算语音有声区平均振幅并根据这个平均振幅改变有声区内采样点振幅的方法来调整音量。(3)根据元音自关函数具有周期性并且其周期就是语音基音周期这一特性,提出在保持语音波形总体不变的前提下,在语音时域上对语音进行插值或删值的方法来调整音调。