论文部分内容阅读
【摘要】针对现有简单语音识别系统的识别率较低、识别速度较慢的问题,在对语音识别原理研究的基础上,对DTW语音识别算法进行了改进,使得简单语音识别系统能够准确、快速的进行识别。
【关键词】语音识别信号处理DTW
一、引言
根据语音识别系统所使用的环境和平台不同,语音识别技术朝着两个方向发展:一个方向是大词汇量的连续语音识别,该方向所处理的语音较为复杂;另一个方向就是向着中小词汇量的孤立词汇语音识别,该方向所处理的语音相对较为简单,应用范围也有一定的限制,如玩具、语音导航等。虽然简单语音识别系统对于能识别的词汇量没有太高的要求,但是目前的一些简单语音识别系统的识别速度慢、识别率较低,导致用户体验较差。
二、语音识别系统原理
语音识别在本质上属于模式识别的范畴,其系统结构与模式识别具有相似之处:根据相关的识别算法对语音信号进行特征参数的提取,然后先进行学习后再对语音信号进行识别。在学习阶段,通过给出的训练数据建立起参考模板库;在识别阶段,将待识别语音信号的特征参数与参考模板库中的参数进行对比,得到与待识别语音信号最接近的模板,输出该模板作为语音识别的结果。
三、简单语音识别系统的改进与实现
DTW在简单语音识别中已经可以达到较高的识别率,因此本文选择DTW作为语音识别的模式匹配算法,并对端点检测进行一定的改进来实现语音识别系统的设计。
3.1端点检测的改进
在进行端点检测前,为短时平均能量和短时过零率设定两个门限值。在静音段,当短时平均能量或短时过零率大于低门限值,则开始准备标记语音起点,由此进入过渡段。但是在过渡段中并不能确定是否真正进入语音段,当短时平均能量和短时过零率都小于低门限值时认为是噪音,并不记录语音起点,恢复为静音段;当短时平均能量或短时过零率大于高门限值,则认为是真正的语音片段,将状态进入语音段。进入语音段后还要记录语音段持续时间,若该段时间较短则认为是噪声,继续检测后面的语音,如果满足一定的时间长度则标记语音起点并将其记录为一段语音。
3.2DTW的改进
DTW的核心思想是进行动态规划,从而解决了语音识别中的发音长度不一致的匹配问题。在进行DTW时,通过动态匹配找到一个最佳路径,把语音信号的特征参数通过这条最佳路径映射到参考模板库中,这条最佳路径要求语音信号和参考模板之间的累积距离最小。
经典的DTW算法规定待识别语音信号和模板中信号的首尾必须完全一致,但是端点检测确定的首尾与实际存在一定的误差,造成识别率有所下降。为此,可以对DTW的端点的限制适当放宽。即允许起点在(0,0)、(0,m)或者(n,0)上,终点在(N,M)、(N,J)或者(I,M)上。端点要求放宽后对端点检测精度的要求就降低了,提高了识别的速度和精度。
虽然语音的速度不同,但是语序是确定不变的,因此路径中每一点的斜率必然大于0。而为了防止过度搜素浪费资源,可以对搜索路径的斜率加以限制,由于语音信号的扩压是有限的,因此可以舍去那些向X轴或者Y轴过度倾斜的路径。具体做法是:将搜索路径中每个点的最大斜率设为2,最小斜率设为0.5,这样就可以大大降低搜索范围,减少了计算量,提高了识别速度。
另外,还可以在进行相似度匹配时设定一个合理的阈值,如果计算出的某一部分的相似度与该阈值相差太远,则立即认为待识别语音与当前模板不匹配,转而进入与下一个模板的相似度计算,这样就可以减少大量的计算量,从而提高简单语音识别的速度。
3.3实验及数据
在实验室较安静的环境下对男女声识别进行了测试。发音内容为0~9的数字,采样率为24KHz,帧长20ms,帧移10ms,识别正确率达到了95%以上,原DTW算法的孤立字识别时间是6~7s,而采用本文改进算法的识别时间减少到2~5s。因此,本文方法可以实现快速准确的简单语音识别。
四、结束语
采用本文方法可以有效提高端点检测的精度、语音识别的正确率和识别速度,该方法完全满足简单语音识别系统的应用。
参考文献
[1]张振锋.基于小词汇量孤立词语音识别系统的研究与设计[D].长安大学,2007.
[2]刘建辉,卢珞先,黄涛.一种小词汇量快速语音识别系统的实现[J].武汉理工大学学报,2006(28).
[3]龚伟.小词汇量孤立词语音识别系统的DSP实现[J].低压电器,2009(20).
【关键词】语音识别信号处理DTW
一、引言
根据语音识别系统所使用的环境和平台不同,语音识别技术朝着两个方向发展:一个方向是大词汇量的连续语音识别,该方向所处理的语音较为复杂;另一个方向就是向着中小词汇量的孤立词汇语音识别,该方向所处理的语音相对较为简单,应用范围也有一定的限制,如玩具、语音导航等。虽然简单语音识别系统对于能识别的词汇量没有太高的要求,但是目前的一些简单语音识别系统的识别速度慢、识别率较低,导致用户体验较差。
二、语音识别系统原理
语音识别在本质上属于模式识别的范畴,其系统结构与模式识别具有相似之处:根据相关的识别算法对语音信号进行特征参数的提取,然后先进行学习后再对语音信号进行识别。在学习阶段,通过给出的训练数据建立起参考模板库;在识别阶段,将待识别语音信号的特征参数与参考模板库中的参数进行对比,得到与待识别语音信号最接近的模板,输出该模板作为语音识别的结果。
三、简单语音识别系统的改进与实现
DTW在简单语音识别中已经可以达到较高的识别率,因此本文选择DTW作为语音识别的模式匹配算法,并对端点检测进行一定的改进来实现语音识别系统的设计。
3.1端点检测的改进
在进行端点检测前,为短时平均能量和短时过零率设定两个门限值。在静音段,当短时平均能量或短时过零率大于低门限值,则开始准备标记语音起点,由此进入过渡段。但是在过渡段中并不能确定是否真正进入语音段,当短时平均能量和短时过零率都小于低门限值时认为是噪音,并不记录语音起点,恢复为静音段;当短时平均能量或短时过零率大于高门限值,则认为是真正的语音片段,将状态进入语音段。进入语音段后还要记录语音段持续时间,若该段时间较短则认为是噪声,继续检测后面的语音,如果满足一定的时间长度则标记语音起点并将其记录为一段语音。
3.2DTW的改进
DTW的核心思想是进行动态规划,从而解决了语音识别中的发音长度不一致的匹配问题。在进行DTW时,通过动态匹配找到一个最佳路径,把语音信号的特征参数通过这条最佳路径映射到参考模板库中,这条最佳路径要求语音信号和参考模板之间的累积距离最小。
经典的DTW算法规定待识别语音信号和模板中信号的首尾必须完全一致,但是端点检测确定的首尾与实际存在一定的误差,造成识别率有所下降。为此,可以对DTW的端点的限制适当放宽。即允许起点在(0,0)、(0,m)或者(n,0)上,终点在(N,M)、(N,J)或者(I,M)上。端点要求放宽后对端点检测精度的要求就降低了,提高了识别的速度和精度。
虽然语音的速度不同,但是语序是确定不变的,因此路径中每一点的斜率必然大于0。而为了防止过度搜素浪费资源,可以对搜索路径的斜率加以限制,由于语音信号的扩压是有限的,因此可以舍去那些向X轴或者Y轴过度倾斜的路径。具体做法是:将搜索路径中每个点的最大斜率设为2,最小斜率设为0.5,这样就可以大大降低搜索范围,减少了计算量,提高了识别速度。
另外,还可以在进行相似度匹配时设定一个合理的阈值,如果计算出的某一部分的相似度与该阈值相差太远,则立即认为待识别语音与当前模板不匹配,转而进入与下一个模板的相似度计算,这样就可以减少大量的计算量,从而提高简单语音识别的速度。
3.3实验及数据
在实验室较安静的环境下对男女声识别进行了测试。发音内容为0~9的数字,采样率为24KHz,帧长20ms,帧移10ms,识别正确率达到了95%以上,原DTW算法的孤立字识别时间是6~7s,而采用本文改进算法的识别时间减少到2~5s。因此,本文方法可以实现快速准确的简单语音识别。
四、结束语
采用本文方法可以有效提高端点检测的精度、语音识别的正确率和识别速度,该方法完全满足简单语音识别系统的应用。
参考文献
[1]张振锋.基于小词汇量孤立词语音识别系统的研究与设计[D].长安大学,2007.
[2]刘建辉,卢珞先,黄涛.一种小词汇量快速语音识别系统的实现[J].武汉理工大学学报,2006(28).
[3]龚伟.小词汇量孤立词语音识别系统的DSP实现[J].低压电器,2009(20).