论文部分内容阅读
语音活动检测是一个将语音信号帧的序列或频率区间,通过在线方法划分为语音存在部分和语音缺失部分的二元分类器。它是声音信号处理领域的一个重要研究课题,是诸多语音信号处理系统的重要组成部分。通过语音活动检测对语音信号进行预处理,可以提升语音信号处理系统的后续处理效果。目前,语音活动检测的主要算法分为三类,分别是基于鲁棒性声学特征的检测算法、基于统计学模型的检测算法、以及基于深度学习技术的检测算法。其中,基于深度学习技术的检测算法在特定环境下能够得到最好的检测效果,但其具有计算负载大、需要额外储存空间、实用环境不匹配时效果不佳等缺点,因此无法完全代替基于统计学模型的检测算法。在统计学模型中,高斯混合模型被广泛用于描述语音信号和非语音信号的概率分布函数,之后采用似然函数对参数集进行估计,完成对带噪语音信号的分类。然而,传统的基于高斯混合模型的方法没有能够从理论上确保分类最优的算法框架,因此无法保证分类结果的最优化。本研究提出了一种基于最大似然准则的序贯高斯混合模型参数估计算法。该算法使用序贯高斯混合模型对每个频域子带上的语音对数能量谱建模,通过序贯似然函数对高斯混合模型的参数进行逐帧估计和更新。似然函数基于牛顿迭代法实现逐帧最大化,整个在线参数估计过程可视为一个一阶的时序回归过程。最后,语音信号的能量序列基于最大似然准则被归类为语音成分或非语音成分,并通过投票系统将所有子带的分类结果相结合,实现语音活动检测的功能。本文通过一系列实验结果证明了该算法的优越性。本文提出的算法不仅可应用于语音活动检测领域,还能够扩展到多种在线的分类器,从理论层面确保分类错误的最小化,具有广阔的科研价值和应用前景。