基于CNN的端到端中文语音识别算法设计与FPGA验证

来源 :东南大学 | 被引量 : 0次 | 上传用户:zxy6651
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别作为人机交互的第一接口,广泛应用于智能音箱、智能家居、汽车电子等领域。卷积神经网络凭借其强大的非线性表达和特征提取能力,被广大研究者应用到语音识别算法声学模型的研究。然而相对于传统语音识别算法,基于卷积神经网络的语音识别算法拥有更多的参数量和计算量,对硬件条件要求更高,使得其部署在移动终端存在巨大的困难。因此,基于软硬件协同设计,实现高效快速的语音识别算法具有重要的现实意义。本文基于卷积神经网络设计了一种端到端语音识别算法,通过引入卷积注意力模块,提高了卷积神经网络对声学模型的建模能力。通过使用复杂度更低的语谱图,在节省了特征提取计算时间的同时,保留了输入语音的大部分信息。通过优化网络结构和使用连接时序分类,在不增加模型参数量的前提下,提升了模型性能。使用数据增强,扩大了小数据集的数据多样性,大幅提升了模型的识别准确率。在卷积神经网络加速器方面,设计了卷积计算模块、模式控制器、数据缓存模块、中间缓存区模块和结果处理模块,并完成各模块的功能仿真。最后,搭建FPGA验证系统,进行算法移植,验证了语音识别算法的有效性。本文基于卷积神经网络设计的语音识别算法,在thchs-30数据集上达到了82.4%的准确率。为对算法进行验证,本文基于FPGA平台搭建了验证系统。实验结果表明,在时钟频率为100MHz,卷积神经网络加速器有效计算能力达到53.2GOPS,性能功耗比为9.9GOPS/W。从语音输入结束到识别完成,延迟时间约274ms。本文的研究对未来高准确率低延迟的语音识别系统的实现具有一定的参考意义。
其他文献
学位
在无线通信、导航定位、雷达技术、环境遥感以及医学研究等领域,微波功率可用来表示信号特征、确定技术指标以及提高系统可靠性;在微波电路与系统中,微波功率可用来确定射频元器件增益、插入损耗以及隔离度等重要参数指标。然而在很多情况下需要检测的微波信号十分微弱,比如空中隐形战机侦察,不同于常规战机,隐形战机通过机身的吸波材料极大削弱了探测雷达反射波,借此来逃脱雷达的侦测;此外,在远程通讯、室内低功率无线传感
随着时代进步、科技发展,人类社会已经步入人工智能时代。计算机视觉已经在生活工作中的很多领域替代人眼,从而实现对视频或图像中感兴趣信息的自动分析和处理。目标检测和定位在近十来年内获得了飞速发展,作为计算机视觉领域中不可或缺的研究方向,该课题融合了机器视觉、图像处理和模式识别等领域的高新技术,是其他复杂视觉任务的重要基石,在智能识别、军事侦查、交通执法和视觉导航等领域中均取得广泛的应用。因此,航拍图像
随着可穿戴设备和物联网(Internet of Things,Io T)的发展,市场对低功耗全球导航卫星系统(Global Navigation Satellite System,GNSS)芯片的需求增大。GNSS模块功耗开销主要集中在捕获引擎上,系统需要对静态随机存储器(Static Random Access Memory,SRAM)进行频繁的存取,而商用编译器生成的SRAM数据带宽和读写功耗
多模干涉耦合器作为一种早在上世纪九十年代就得到广泛应用的结构,具有工作带宽大、制作容差大等优势。目前不断涌现的高新信息技术带来了更大的光通信需求,光通信系统对器件集成度以及性能的要求越来越高,基于普通波导的多模干涉耦合器显然需要进一步的优化。亚波长结构是光子学中一个里程碑式的发现,在提升器件性能以及设计灵活度方面有显著的优势,随着高精度光刻技术的提升,亚波长结构在硅基器件中的实际应用越来越多。在传
我国自主研发并独立运行的北斗卫星导航系统(Bei Dou Navigation Satellite System,BDS)为我国的国防和民用卫星导航提供了可靠的途径,而惯性导航系统(Inertial Navigation System,INS)是载体导航定位中常用的技术,研究高性能的BDS/INS组合导航对我国军事、民用具有重大的意义,同时有利于北斗卫星导航系统以更优异的性能服务世界。飞机、炮弹等
汉字是古老的自源文字,在世界语言文字中占有着独特的地位,在国际中文教育中也占有着非常重要的地位。然而,目前国际中文教育中的汉字教学却面临着不少问题,如对汉字特点的把握不够深入、汉字课程的建设不够完善、汉字教学的方法不成系统,“汉字难”问题也一直没有得到很好的解决等等。汉字具有形、音、义三个要素,汉字最鲜明的特色在形,因而,立足汉字之形来研究汉字,探索汉字教学的规律和方法,不失为解决目前汉字教学问题
学位
学位
学位