论文部分内容阅读
摘 要:随着计算机技术、电子信息技术的不断发展,适用于不同场合的识别技术相继被开发出来,其中语音识别技术最为方便快捷,并且在计算机、信息处理、自动化控制等发面得到广泛的应用。作为方便快捷的信息安全保护方式,语音识别技术在政府部门、商业机构和日常生活中很受人們欢迎。线性预测倒谱系数和梅尔倒谱系数是语音识别中最常用的两种特征参数,本文分别讲述了他们的提取方法,并且用余弦相似度算法对提取的特征参数进行处理,训练并且建立模型,同时也能用于语音识别判决方式。
关键词:LPCC;MFCC;余弦相似度;语音识别
1 线性预测倒谱系数(LPCC)
1.1 线性预测倒谱系数基本思想
由于语音抽样点之间存在相关性,所以可以用过去的样点值来预测现在或者未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或他们的线性来逼近。通过是实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特征,可以作为语音信号特诊参数用于语音识别,语音合成等。
1.2 LPCC参数提取
1.2.1 预加重、分帧、加窗
预加重处理其实就是将信号通过一个高通滤波器:
预加重可以提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。
分帧即为将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,并且能使基音峰清晰突出。假设分帧后的信号为S(n), n=0,1…,N-1, N为帧的大小,那么乘上汉明窗后 ,W(n)形式: ,不同的a值会产生不同的汉明窗,一般情况下a取0.46。
1.2.2 LPC复倒谱
LPC系数是线性预测分析的基本参数,可以吧这些系数变换为其他参数,以得到语音的其他代替表示方法。设通过线性预测分析得到的声道模型系统函数为:
其冲激响应为 ,设 表示的 复倒谱,则有:
将H(z)代入并将其两边对z-1求导数,有:
令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由ak求出 :
按上式求得的复倒谱 就是线性预测倒谱系数。
1.3 LPCC的缺点
线性预测倒谱系数的识别效率低,收敛速度慢,对环境干扰的抗噪声能力差,鲁棒性差。
2 梅尔倒谱系数(MFCC)
2.1 MFCC概述
梅尔倒谱系数就是组成梅尔频率倒谱的系数。这种参数模型,利用了人耳听觉机理——掩蔽效应,在从低到高的频带内,安排一组由密到疏的带通滤波器,对输入信号进行滤波。并且,将每个滤波器的输出能量作为信号的基本特征,对此特征进一步处理得到语音的输入特征。这种特征不依赖信号的性质,对输入信号不做任何的假设和先知,比LPCC具有更好的鲁棒性。
2.2 梅尔频率域线性频率的关系
2.3 MFCC参数提取
2.3.1 预加重、分帧、加窗
过程同LPCC参数提取。
2.3.2 快速傅里叶变换
时域信号很难分析其能量分布规律,通常采用傅里叶变换,在频域进行分析。对第n帧语音信号xn(m)进行傅里叶变换定义如下:
2.3.3 MEL滤波器组
MEL滤波器组实际上是一组从低频到高频由密到疏的三角滤波器组,实验发现,人耳只关注某些特定的频率分量,并且对低频感受比高频更加敏感,MEL滤波器组通过这样的滤波方式保留了有效的声音信息,减小了冗余度。
2.3.4 对数运算
通过对数运算,可以计算每个滤波器组的输出能量:
2.3.5 离散余弦变换(DCT)
通过DCT可以计算得到MFCC系数:
所求的的系数就是这帧语音对应的特征。
3 利用余弦相似度算法判决
3.1 概述
余弦相似度,又称为余弦相似性。通过计算两个向量之间的夹角的余弦值,来表征这两个向量的相似性,夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
3.2 计算
对于二维空间,假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:
到多维:
3.3 性质
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,他们的方向更加一致。相应的相似度也越高。
3.4 应用
在基于声纹认证的语音识别系统中,建立一个训练集,训练集内的语音信号两两计算余弦相似度,设定一个阈值,超过该阈值的语音信号则提示与其他误差偏大,需重新采样。通过这种方法保证了通过训练集建立出的模型的精确度。在测试集与已建立模型比较式,若余弦相似度超过阈值,则表明语音不能成功识别。
4 语音识别方法
4.1 建立训练集
在建立训练模集时,对K个语音信息得到的K组特征参数,两两计算余弦相似度,设定一个阈值,超过此阈值的语音信息判断为非有效信息,应该重新录制新的语音信息。当所有得到的预先相似度都不超过阈值时,成功建立训练集。
4.2 语音识别系统
将待识别语音的特征与训练集各模型计算余弦相似度,每有一个小于阈值,则通过一个,半数以上训练集模型通过,则最终判决为语音识别成功,否则失败。
参考文献
[1] 找一片天空散步.语音特征参数MFCC提取过程详解[EB/OL].开源中国网,2014年1月15日.
[2] 吴军.数学之美(第二版)[M].北京:人民邮电出版社,2014年11月.
[3] 赵力.语音信号处理[M].北京:机械工业出版社,2003年3月.
[4](美)Steven W.Smith.实用数字信号处理从原理到应用[M].张瑞峰、詹敏晶等译.北京:人民邮电出版社,2010年12月.
[5] 俞建潮、张瑞林.基于LPCC和MFCC的说话人识别[J].计算机工程与设计,2009,30(5),1189-1191.
关键词:LPCC;MFCC;余弦相似度;语音识别
1 线性预测倒谱系数(LPCC)
1.1 线性预测倒谱系数基本思想
由于语音抽样点之间存在相关性,所以可以用过去的样点值来预测现在或者未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或他们的线性来逼近。通过是实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特征,可以作为语音信号特诊参数用于语音识别,语音合成等。
1.2 LPCC参数提取
1.2.1 预加重、分帧、加窗
预加重处理其实就是将信号通过一个高通滤波器:
预加重可以提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。
分帧即为将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,并且能使基音峰清晰突出。假设分帧后的信号为S(n), n=0,1…,N-1, N为帧的大小,那么乘上汉明窗后 ,W(n)形式: ,不同的a值会产生不同的汉明窗,一般情况下a取0.46。
1.2.2 LPC复倒谱
LPC系数是线性预测分析的基本参数,可以吧这些系数变换为其他参数,以得到语音的其他代替表示方法。设通过线性预测分析得到的声道模型系统函数为:
其冲激响应为 ,设 表示的 复倒谱,则有:
将H(z)代入并将其两边对z-1求导数,有:
令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由ak求出 :
按上式求得的复倒谱 就是线性预测倒谱系数。
1.3 LPCC的缺点
线性预测倒谱系数的识别效率低,收敛速度慢,对环境干扰的抗噪声能力差,鲁棒性差。
2 梅尔倒谱系数(MFCC)
2.1 MFCC概述
梅尔倒谱系数就是组成梅尔频率倒谱的系数。这种参数模型,利用了人耳听觉机理——掩蔽效应,在从低到高的频带内,安排一组由密到疏的带通滤波器,对输入信号进行滤波。并且,将每个滤波器的输出能量作为信号的基本特征,对此特征进一步处理得到语音的输入特征。这种特征不依赖信号的性质,对输入信号不做任何的假设和先知,比LPCC具有更好的鲁棒性。
2.2 梅尔频率域线性频率的关系
2.3 MFCC参数提取
2.3.1 预加重、分帧、加窗
过程同LPCC参数提取。
2.3.2 快速傅里叶变换
时域信号很难分析其能量分布规律,通常采用傅里叶变换,在频域进行分析。对第n帧语音信号xn(m)进行傅里叶变换定义如下:
2.3.3 MEL滤波器组
MEL滤波器组实际上是一组从低频到高频由密到疏的三角滤波器组,实验发现,人耳只关注某些特定的频率分量,并且对低频感受比高频更加敏感,MEL滤波器组通过这样的滤波方式保留了有效的声音信息,减小了冗余度。
2.3.4 对数运算
通过对数运算,可以计算每个滤波器组的输出能量:
2.3.5 离散余弦变换(DCT)
通过DCT可以计算得到MFCC系数:
所求的的系数就是这帧语音对应的特征。
3 利用余弦相似度算法判决
3.1 概述
余弦相似度,又称为余弦相似性。通过计算两个向量之间的夹角的余弦值,来表征这两个向量的相似性,夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
3.2 计算
对于二维空间,假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:
到多维:
3.3 性质
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,他们的方向更加一致。相应的相似度也越高。
3.4 应用
在基于声纹认证的语音识别系统中,建立一个训练集,训练集内的语音信号两两计算余弦相似度,设定一个阈值,超过该阈值的语音信号则提示与其他误差偏大,需重新采样。通过这种方法保证了通过训练集建立出的模型的精确度。在测试集与已建立模型比较式,若余弦相似度超过阈值,则表明语音不能成功识别。
4 语音识别方法
4.1 建立训练集
在建立训练模集时,对K个语音信息得到的K组特征参数,两两计算余弦相似度,设定一个阈值,超过此阈值的语音信息判断为非有效信息,应该重新录制新的语音信息。当所有得到的预先相似度都不超过阈值时,成功建立训练集。
4.2 语音识别系统
将待识别语音的特征与训练集各模型计算余弦相似度,每有一个小于阈值,则通过一个,半数以上训练集模型通过,则最终判决为语音识别成功,否则失败。
参考文献
[1] 找一片天空散步.语音特征参数MFCC提取过程详解[EB/OL].开源中国网,2014年1月15日.
[2] 吴军.数学之美(第二版)[M].北京:人民邮电出版社,2014年11月.
[3] 赵力.语音信号处理[M].北京:机械工业出版社,2003年3月.
[4](美)Steven W.Smith.实用数字信号处理从原理到应用[M].张瑞峰、詹敏晶等译.北京:人民邮电出版社,2010年12月.
[5] 俞建潮、张瑞林.基于LPCC和MFCC的说话人识别[J].计算机工程与设计,2009,30(5),1189-1191.