论文部分内容阅读
许多语音增强算法被用来除去复杂的背景噪音,提升语音的音质,抑制信道或话者之间的串扰,增加语音识别系统的健壮性等。本文将集中于提升语音音质的这一类算法的研究。在过去的二十多年里,许多针对这一问题的语音增强算法被提出来,这些算法主要依据语音线性生成模型。然而语音的线性生成模型忽略了声带振动及声道调制的一些有用信息,只是复杂物理过程的一个线性近似。近来研究表明语音的生成是一个非线性的确定性物理过程,对包括汉语在内的多种语言的语音的非线性时间序列分析亦表明虽然语音是非平稳非线性的,但其孤立的音素特别是浊音表现出强烈的确定性类混沌特性。基于这一认识,许多基于混沌时间序列分析的方法被应用到语音信号处理中,如语音合成、语音编码和语音增强等。
第一章回顾语音增强和基本的非线性动力学理论。
第二章介绍最初被提出来用于混沌时间序列降噪的局部投影法(LP)的算法原理,提出该算法的一种基于信号空间视角的新解释,并讨论了该算法与其它算法之间的关系。
第三章提出维纳型局部投影算法,并改正了LP的一个缺陷,两者都对混沌数据得到满意的降噪结果。接着对近邻点的选取方法进行不同的改进尝试。
第四章应用伪近邻点法对汉语字母表的发音进行最小嵌入维分析,结果表明汉语的字母发音可以在一个低维空间嵌入。随后给出非平稳的汉语连续语音基于过嵌入理论的相空间重构解释。最后对汉语孤立音以及连续语音进行增强实验,并与其它算法进行比较。结果表明对于加性白噪声LP算法的性能很好。这为语音增强提供了一条新的思路。
第五章总结全文的工作并对这一课题的进一步研究方向进行讨论。