论文部分内容阅读
近年来,随着现代科学技术的蓬勃发展,数字语音信号处理作为一个跨学科、综合性的研究领域已成为当今的一个研究热点。研究表明,语音信号的产生既非确定性线性过程,也非随机过程,其中可能存在着复杂的非线性甚至混沌产生机制,这使得基于线性平稳系统理论发展起来的传统语音信号处理技术性能受到限制。而近些年发展起来并逐步完善的非线性、非平稳信号处理方法,有可能为语音信号处理技术的发展带来新的发展机遇。汉语是世界主要语言之一,也是世界上作为母语使用人数最多的语言,使用人数大约有14亿。除了中国大陆、香港特别行政区、澳门特别行政区和台湾省以外,汉语还广泛地分布在新加坡、马来西亚等东南业国家,以及美国、欧洲等西方发达国家。汉语是声调语言,汉语普通话四声中除了单调变化的第一、二和四声之外,还包含非单调变化的第三声。传统语音信号处理技术则很难能够准确地捕捉到。基于经验模式分解及以此为基础的希尔伯特黄变换,被认为是近年来对以傅立叶分析为基础的线性和稳态数据分析的一个重要突破。本文在对汉语语音信号发声机理和信号特点深入了解的基础上,利用经验模式分解将汉语语音信号自适应地分解成一系列不同时间尺度的振动模式。我们认为,这些模式分别对应或包含了形成语音信号的各种不同子成分,如基频及声道的共振峰。在此基础上,针对各个模式,采用各种适用于非线性非平稳信号分析的方法和手段,对其进行描述及刻画,试图从中提取出有效的特征量。通过上述特征提取方法,我们希望能够突破传统线性语音信号处理技术的局限性,正确掌握汉语语音发音系统的规律,同时获得能够反映汉语语音信号精细结构的动态特征。本文的主要创新点如下:1.通过深入分析经验模式分解的优势和不足,特别地,针对原始经验模式分解方法存在的妨碍其在实际信号中应用的模式混叠问题,引入了更加具有物理意义的积分平均和“质心”的概念来计算信号的局域平均曲线,提出并形成了基于积分平均和基于“质心”的经验模式分解两种新方法。通过比较原始经验模式分解方法和两种新方法各项性能指标,发现两种新方法都极大地提高了经验模式分解的频率分辨率,而且极大地改善了算法的稳定性和抗噪性,从而为应用于实际语音信号提供了坚实的技术基础。2.提出了一种新的基频检测算法,特别适合于检测汉语语音基频的动态结构,如汉语第三声的“V”型基频包络。经过经验模式分解后得到的不同模式都可以通过希尔伯特变换计算得到其瞬时频率,通过对瞬时频率分布特性的获取和分析,可以得到语音信号中的不同子成分的频率变化的特性,进而提出了稳定的、反映时变性的特征量。新算法首先利用传统基频检测工具倒谱法估计出基频包络的大致走势,接下来以倒谱法估计出的走势作为参考从经验模式分解法分解出的若干内禀模式函数中获取准确的瞬时基频。通过比较新的基频检测算法和现有的基频检测算法各项性能指标,验证了新算法在检测基频时的准确性和抗噪性。3.针对传统共振峰检测工具在提取共振峰时会出现虚假峰值和共振峰合并的问题,我们提出一种新的共振峰检测算法。新算法利用基于积分平均的经验模式分解频率分辨率较高的特性,将汉语语音信号中前三个共振峰自适应地分解到不同时间尺度的振动模式中去,接下来利用线性预测的方法从不同内禀模式函数中获取准确的瞬时共振峰。实验结果表明,新算法的检测结果优于传统共振峰检测工具。本文在汉语基频和共振峰动态特性检测方面的研究成果,不但可以更加深入地定量认识汉语语音和韵律变化的规律,而且可以为发展新一代汉语语音处理新技术提供研究基础。