论文部分内容阅读
语音识别的鲁棒性问题,是语音识别技术进入实际应用所遇到的主要问题。鲁棒性问题产生的根本原因是由于声学空间的多样性而导致的训练与识别的失配。一方面,这对于区分不同的语音建模单元(如音素)是必要的;而另一方面,语音信号中存在着大量识别过程无关的多样性因素。它主要包含以下两个方面的因素:环境和说话人。本文分别在特征空间进行归一化,消除环境和说话人的影响,并在自适应声学建模的框架下进行声学模型训练,以提高语音识别系统对环境和说话人的鲁棒性。主要内容如下:
⑴在噪声自适应训练框架下(NAT),提出一个基于ETSI AFE的改进的抗噪前端,该前端使用对数谱域环境函数的VTS展开得到的参数估计,用以进行维纳滤波器的构建。在2005年863评测桌面系统测试的真实噪声环境下,提出的抗噪前端对比AFE和VTS对数域补偿算法,系统字错误率绝对下降1~2个百分点。
⑵在自适应声学训练框架下,提出了一个改进的声道归一化训练算法,将用于切分的高精度声学模型同退为单混合,用于鲁棒的估计弯折因子。在RT_02的新闻广播(Broadcast News,BN)测试集Eva02上取得绝对错误率0.7%的系统字错误率下降的性能。
⑶提出针对环境和说话人的联合归一化前端,在噪声环境下首先对语音进行抗噪,并在此基础上进行声道归一化,使得生成的归一化声学模型更加紧致。初步试验表明,这种联合归一化具有可加性,使得字错误率相对单纯的环境补偿进一步降低。