论文部分内容阅读
语音识别是一种易于令人接受的生物认证识别技术,近几年发展迅速,被广泛应用于安保、声纹指令、语音锁、司法鉴定、身份认证、语音听写,语音合成,汉语命令识别等领域,其中,汉字发音识别和说话人识别是语音识别研究的两个主要方向,二者都是对语音信号进行处理,提取用于识别的特征。其中,汉字发音识别是从语音信号中提取汉字发音特征,判断说话人发的是哪个汉字的语音;而说话人识别则是提取语音信号中反映说话人发音系统生理特征,自动识别说话人。目前,虽然语音识别已日趋成熟,但在识别精度、可识别样本量及识别速度上还有待进一步提高。现有的语音识别技术通常以MFCC、LPCC、LPMCC等作为特征参数,识别算法采用隐马尔科夫模型、矢量量化和动态时间规整等方法。语谱图是用二维图像表示语音频谱随时间变化情况,不仅可以凸显说话者语音整体时频特性,还可以将语音信号可视化,直观地展示语音的时频特性,其中包含了可用于汉字发音识别和说话人识别的信息。深度卷积神经网络近几年发展迅速,在众多模式识别任务中取得了令人瞩目的成效。由于卷积神经网络具有对二维输入图形的平移、缩放和形变的不变性,因此,能够从整体上提高识别系统的鲁棒性和运算速度。因此,本文提出了将语谱图与深度卷积神经相结合进行汉字孤立字发音识别和与文本无关的说话人识别的方法。本文实验均是在MATLAB2010a软件上编程和仿真完成的,实验所用语音样本均在实验室安静环境下由同学们录制。在汉字孤立字发音识别研究中,选择常用汉字库中1605个汉字,共920个发音作为识别对象,每个发音获取了10样本,共9200个样本,用于对卷积神经网络进行训练,实验结果表明,训练样本识别率达到99.32%,优于其他汉字发音识别方法。通过语谱图与深度卷积神经相结合实现汉字孤立字发音识别之后,本文进一步针对实验室30名同学进行了说话人识别研究。首先对不同说话人的一段语音以一个完整音节为时间单位做语谱图,再通过图像处理技术对每个人全部发音所得的语谱图进行线性叠加,以获得该说话人发音特点的统计特征,最后用叠加的语谱图对卷积神经网络进行训练和分类,从而判断是哪位说话者在说话。测试结果表明,对全部说话人的识别率达到98.83%,优于其他说话人识别方法。本论文研究对于语谱图和卷积神经网络在语音识别中的应用具有参考价值。