论文部分内容阅读
本论文研究复杂强背景噪声下的语音信号检测问题。语音检测算法是现在语音信号处理研究的一个热点。近些年来,语音信号处理技术伴随着人们对通讯技术升级的需求得到了迅猛的发展。IP电话已经走向大规模产业化应用,并以其低廉的成本和满意的话音质量成为通讯供应商竞争的利器,大有取代传统电话的趋势。语音识别技术也已经实现了与说话者无关的大词汇量连续语音识别,并试图从试验研究走向商用。说话者识别技术作为一个新一代的门禁安防技术也已经出现商业应用。很多单工的通讯设备可以通过语音检测技术的应用实现收发状态的自动转换而以比较小的代价达到双工设备的功能。语音检测技术作为这些语音处理算法中的核心预处理单元,成为这些技术能否走向成熟商业应用的关键技术之一。 实际通讯环境中会遇到各种不同类型、不同强度的噪声。它们各自在时域或频域中有互不相同的特点,没有一致的统计参数。语音信号本身也是一个时变的复杂信号。不同的语言,不同的音位(语音中的最小发声单位)各不相同。总之,实际中的噪声和语音信号都是复杂的时变信号。如果不是面向特定背景噪声的应用,通过寻找噪声的共同特征以构建一个噪声信号与语音信号的区分函数是不现实的。 语音信号处理本身是一个涉及到传统数字信号处理、统计信号处理、模式识别与建模、发声学、语音语言学等多学科的综合技术。论文在前人研究的基础上,从语音信号的形制机理出发,对语音信号中的基本成分—轻音和浊音的特征进行了深入的研究。Source-Filter模型在语音信号建模中有着广泛的应用,论文在基于Source-Filter模型求取语音信号的LPC谱中发现,语音的短时稳定性(short time stationary)在LPC谱中有着不同于噪声信号的鲜明体现,从而提出了基于音位共振峰轨迹跟踪的语音检测新方法。论文对新算法与国际电信联盟(ITU)的G.729B推荐语音检测标准算法进行了对比验证,证明在强背景噪声环境下新算法的性能有20%左右的提高。同时新算法也体现出比G.729B更强的背景噪声适应能力。 在算法的实现中,局部大能量的噪声会形成LPC谱中的局部极大值点,它具有类似语音共振峰的特征。为了消除噪声极大值点对音位共振峰轨迹跟踪的不良影响,论文提出了一个共振峰的形态判别标准—音位共振峰的幅值峰谷比原则,并通过大量的试验研究确定了峰谷比的优化量值。试验证明,此方法是剔除局部噪声极值点的有效方法。 论文工作将新算法在一个基于TI TMS320C6711的数字信号处理器平台上实时实现。在实现过程中,使用了幅值、步长的分段拟合和插值算法,大大降低了复杂数学函数的运算时间,满足了算法了实时性要求。 各章内容分述如下: 论文第一章以大量国内外文献为基础,全面论述了语音检测算法的发展历史和现状,并详细分析了各典型算法的优缺点以及在复杂背景噪声下的适用性,提出了本博士课题的选题意义和研究方向、研究内容。 论文第二章研究了语音信号的形成机制和SourceFilter模型以及轻音和浊音