语谱图在汉字发音识别与说话人识别中的应用研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:qweaz1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是一种易于令人接受的生物认证识别技术,近几年发展迅速,被广泛应用于安保、声纹指令、语音锁、司法鉴定、身份认证、语音听写,语音合成,汉语命令识别等领域,其中,汉字发音识别和说话人识别是语音识别研究的两个主要方向,二者都是对语音信号进行处理,提取用于识别的特征。其中,汉字发音识别是从语音信号中提取汉字发音特征,判断说话人发的是哪个汉字的语音;而说话人识别则是提取语音信号中反映说话人发音系统生理特征,自动识别说话人。目前,虽然语音识别已日趋成熟,但在识别精度、可识别样本量及识别速度上还有待进一步提高。现有的语音识别技术通常以MFCC、LPCC、LPMCC等作为特征参数,识别算法采用隐马尔科夫模型、矢量量化和动态时间规整等方法。语谱图是用二维图像表示语音频谱随时间变化情况,不仅可以凸显说话者语音整体时频特性,还可以将语音信号可视化,直观地展示语音的时频特性,其中包含了可用于汉字发音识别和说话人识别的信息。深度卷积神经网络近几年发展迅速,在众多模式识别任务中取得了令人瞩目的成效。由于卷积神经网络具有对二维输入图形的平移、缩放和形变的不变性,因此,能够从整体上提高识别系统的鲁棒性和运算速度。因此,本文提出了将语谱图与深度卷积神经相结合进行汉字孤立字发音识别和与文本无关的说话人识别的方法。本文实验均是在MATLAB2010a软件上编程和仿真完成的,实验所用语音样本均在实验室安静环境下由同学们录制。在汉字孤立字发音识别研究中,选择常用汉字库中1605个汉字,共920个发音作为识别对象,每个发音获取了10样本,共9200个样本,用于对卷积神经网络进行训练,实验结果表明,训练样本识别率达到99.32%,优于其他汉字发音识别方法。通过语谱图与深度卷积神经相结合实现汉字孤立字发音识别之后,本文进一步针对实验室30名同学进行了说话人识别研究。首先对不同说话人的一段语音以一个完整音节为时间单位做语谱图,再通过图像处理技术对每个人全部发音所得的语谱图进行线性叠加,以获得该说话人发音特点的统计特征,最后用叠加的语谱图对卷积神经网络进行训练和分类,从而判断是哪位说话者在说话。测试结果表明,对全部说话人的识别率达到98.83%,优于其他说话人识别方法。本论文研究对于语谱图和卷积神经网络在语音识别中的应用具有参考价值。
其他文献
随着互联网技术的迅猛发展和3G、4G时代的到来,手机动漫游戏越来越受到社会各界的关注和青睐。本文通过对当前中国手机动漫游戏的现状进行分析,并提出相应的发展策略,进而推
为建立一种快速、简便、无创伤性的小鼠重症急性胰腺炎模型。本实验运用雨蛙素联合脂多糖小鼠腹腔内给药;血淀粉酶和胰腺湿重测定;胰腺和胰外器官病理学检查;腺泡细胞透射电
随着我国科学技术的不断进步,智能化产品如雨后春笋般涌现,智能化已经成为社会发展的方向,电力行业也不除外。智能电网的出现,势必会刮起智能狂潮,发展走向将在不同程度上影
近年来,旅游业作为现代服务业的重要组成部分得到了快速发展,在这一背景下,也对风景园林建设产生了巨大的影响。本文从概括我国旅游业发展整体状况入手,通过分析旅游业发展与