论文部分内容阅读
目前,在嵌入式平台,像手机、平板、穿戴数码、汽车电子等,语音识别方案受嵌入式设备计算速度和存储能力的限制,大多选用云语音识别方案,例如Google云语音识别、科大讯飞云语音识别等,而云语音识别效果又与嵌入式平台网络状况以及云语音识别服务器计算能力相关。因此,针对嵌入式平台来说,基于云的语音识别方案存在识别延时大、识别结果情景相关性不强的问题。本论文主要工作是研究适合嵌入式平台的语音识别方案,达到高精度、快速度的语音识别效果,并具备一定的口音抗拒能力,满足嵌入式平台语音识别的应用需求。论文针对嵌入式平台语音识别面临的4个核心问题(计算能力、词汇量、识别速度、说话者口音),从现有的3种语音识别解决方案(专用语音识别芯片级、语音识别开发平台级、云语音识别级)着手,提出了基于专用语音芯片的本地语音识别和云语音识别辅助的混合语音识别方案。论文分别研究了嵌入式平台下,基于LD3320的本地语音识别方案和基于Google的云语音识别方案的性能。测试结果表明:单纯基于LD3320的本地语音识别平均识别准确率为87.2%,但识别指令个数不能超过50,而单纯基于Google的云语音识别准确率受说话者口音及语音词汇频度影响很大,而且识别延时不稳定且依赖网络状况。WIFI网络状况下识别延时0.3s~3s,而手机2G网下延时4s~14s不等。针对嵌入式平台本地语音识别和云语音识别的特点,提出利用“动态多场景切换”机制解决识别指令个数限制,利用“近音映射”机制解决说话者口音问题,组建以基于LD3320的本地语音识别为主、Google云语音识别为辅的混合语音识别系统。最后,通过智能安防机器人平台测试,验证了混合语音识别方案的可行性以及语音识别效果的鲁棒性。测试结果显示:该混合语音识别系统较单纯基于LD3320芯片的语音识别方案性能要好,识别率从87.2%提高到95.8%。