论文部分内容阅读
尽管当前语音识别技术已经取得了广泛的应用,但是在封闭环境中进行远距离语音识别时,由于受到混响效果的影响,从而存在语音识别率下降的问题。因此,如何减小混响效果的影响,降低训练语音与测试语音之间的差异性,成为远距离语音识别的难点。本文分别对远距离语音识别中的模型域补偿与实时性提升两个方面进行了研究。
首先,基于混响建模(REverberation MOdeling for Speech recognition,REMOS)的模型域补偿理论,利用最大后验概率的原理,基于对房间不同区域进行有区别补偿的思想,在按帧的隐马尔科夫模型(Hidden Markov Model,HMM)补偿的基础上,对基于混响模型补偿的模型白适应方法进行了改进。该方法利用K均值聚类(K-means)算法对房间冲激响应(Room Impulse Response,RIR)的优化集进行聚类,对所属相同类的混响模型进行合并处理。然后把合并后的混响模型载入维特比(Viterbi)算法中,对清晰语音的HMM模型进行按帧的补偿。最后采用后验概率的方法选择最佳补偿,使得模型域的混响补偿能够最接近精确补偿。
其次,在基于混响模型的模型域补偿方法中,将自适应阈值思想应用到新方法中,由此达到提高方法实时性能的目的。首先对影响混响补偿实时性的三个因素进行了分析,然后通过确立一个自适应阈值函数,在维特比解码时期判断当前系统性能与阈值函数之间的关系,动态调整相应的补偿参数,从而在混响补偿的同时提高系统的实时性。
最后,基于开源语音识别库ATK开发了一个远距离语音识别原型系统,其中系统所需的声学模型文件通过语音识别工具包HTK训练得到。该系统能实时地从输入语音流中提取语音帧特征,产生并加载混响模型文件,输出识别结果。实验测试表明该系统能较准确地识别不同混响环境下的语音数据,并具有较好的实时性。