论文部分内容阅读
随着信息技术和多媒体技术的发展,人们的业余生活越来越丰富多彩,对一些音频材料的要求也越来越高,普通的音频材料已经不能满足人们的生产和生活的需求。应运而生的语音变调技术就是在不改变语音可懂度,并保持语速不发生变化的前提下,按照某种算法对给定语音的音调高低进行调整,现实生活中,它的用途随处可见,例如它可以将一个人的声音变得让熟悉它的人听不出来是谁的声音,起到保护个人隐私的目的,另外,它可以将人的声音加以修饰,变成动物的声音,达到为人们提供娱乐效果的目的等等。目前存在的算法多种多样,主要分为时域算法和频域算法,时域算法主要有时域调制法和基于同步叠加固定合成的算法(Synchronized Overlap-Add Fixed Synthesis,SOLA-FS),频域算法主要有频域插值法和基于相位声码器的算法。本文对现有变调算法进行介绍,在介绍各变调方法原理的同时还介绍了各个方法的优缺点,更便于人们针对具体情况选择不同的变调方法。应用比较广泛的当属SOLA-FS算法,SOLA-FS算法分为两个步骤:采样率变换和时长规整。通过对原语音信号采样点进行插值和抽取相结合实现采样率变换,经采样率变换后,原语音长度相应的变长或变短,若想保持语速不变,则需用SOLA-FS算法对语音进行时长规整。该算法简单,但由于对信号采用分段处理的方式,在各段连接点处存在相位不连续的问题,导致变调后语音音质差、有噪声等问题。针对SOLA-FS算法存在的问题,本文在SOLA-FS的基础上,对其进行了改进。新的算法不改变原语音的采样率,而是在播放时采用设定的采样率播放的方法实现语音变调。新的算法通过复制或删除每帧语音的最后一个基音周期来实现采样率变换。而且,通过反推得出每帧语音的长度,用相关函数法求出最后一个基音周期与它之前的一个基音周期的最大相关系数,以此确定复制段或删除段的最佳长度。以上两点的改进,大大改善了变调语音在相位连接点处相位不连续的问题。最后对算法在MATLAB环境下进行仿真,并用语音评价方法进行音效评估。实验结果表明,相对于SOLA-FS算法,新方法明显地改善了语音在连接点处相位不连续的问题,具有更好的变调效果。