基于循环神经网络的语音识别方案的优化与设计

来源 :北京交通大学 | 被引量 : 17次 | 上传用户:yangtianmei01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是人工智能的重要分支和一项重要的人机交互技术,被广泛的应用到各种生活场景中。当前的语音识别系统在纯净无噪的环境下的准确率已经超过了人的听觉,然而,真实应用场景中的复杂的环境因素对语音识别系统的准确度带来的影响,以及在开发阶段训练语音识别模型所消耗的时间成本与计算成本,成为阻碍语音识别发展的难题,因此,快速训练语音识别模型的同时提高识别率是语音识别的重要研究课题。本文主要研究如何在加快神经网络训练速度与解码速度的前提下提高语音识别模型的准确率。神经网络的黑盒性与不可解释性是改进神经网络结构的主要难题,本文使用可视化的方式,对神经网络的内部结构进行研究,基于可视化的结果分析了导致网络精度低与训练速度慢的主要原因。本文的研究工作主要由以下三个部分组成:第一部分,提出了一种基于跨层值传递的深度神经网络。深度神经网络的层数和参数的增加,可以有效的抑制过拟合的现象,而层数过深导致的直接问题是:信息在传递的过程中的损失。本文通过深度神经网络隐藏层的研究,提出了一种基于跨层值传递的神经网络,经验证该方法可以有效的防止信息在传递过程中的损失,提升神经网络的精度。第二部分,提出了一种二值化与线性表示结合的方法加速循环神经网络的训练与解码。循环神经网络内部复杂的结构是导致神经网络训练与解码速度慢的直接因素,本文基于对循环神经网络中的门的研究,提出了二值化与线性表示相结合的训练方法,经验证该方法可以做到在只损失少量精度的前提下加速神经网络的训练与解码。第三部分,将以上两种方式结合,提出了基于二值化与线性表示结合的跨层值传递深度循环神经网络结构,并设计了:常规测试,鲁棒性测试与速度测试三种方式对新的模型进行全面验证,最终结果表明:新的模型可以在加快训练速度与解码速度的前提下提升深度神经网络的精度。最后作者应用本文提出的新模型,实现了一个简单的在线语音识别系统,该系统可以并发的为用户提供大规模连续语音识别服务。
其他文献
【目的】研究新疆玛纳斯河流域盐渍化严重程度及分布情况,为治理土壤盐渍化提供参考。【方法】采用2007-08-19的玛纳斯河流域Landsat TM影像图,通过主成分分析选出典型波段,
目的探讨总胆固醇(TC)、甘油三酯(TG)和胰岛素敏感指数(HOMA-IR)等3个指标对非酒精性脂肪肝(NAFLD)诊断价值。方法分析122例本院门诊及住院的患者总胆固醇、甘油三酯、空腹血
近年,随着深度神经网络(Deep Neural Network,DNN)在语音识别中的成功应用,研究人员陆续展开了对其他网络结构的探索。卷积神经网络(Convolutional Neural Network,CNN)凭借
自十八届四中全会确立实施司法体制改革以来,司法体制改革试点工作已如火如荼开展近两年,从最初中央确立的7个试点省份到包括北京在内的我国14个第三批司法改革试点省份(包含
硼替佐米是治疗多发性骨髓瘤的蛋白酶体抑制剂类药物,临床治疗中硼替佐米可导致周围神经病变。然而,硼替佐米引起的中枢神经病变却鲜有报道,本文将1例应用硼替佐米后出现意识
目的探讨中西结合治疗轮状病毒肠炎的方法.方法将轻度、中度轮状病毒肠炎的两组患儿225例随机分为对照组一般治疗、治疗I组加口服思密达、治疗Ⅱ组加服思密达及黄荆叶粥.结果
循环流化床锅炉(CFBB)的磨损导致受热面爆管、泄露是困扰循环流化床锅炉安全稳定运行的关键问题之一。分析了西山热电公司循环流化床锅炉炉内受热面磨损问题,提出了循环流化
易卜生的诗剧《武士冢》中反复出现南部与北部两个地理空间意象,他用这两个地理意象阐述两种不同的文化,表达了自己的文化理想。作为空间意象,南方是平静、安宁的象征,北方则
近年来,随着国有企业改革不断深入,如何将企业做大做强是国有企业改革不断追求的目标。加强国有企业党建工作的开展,不仅可以充分发挥党组织的模范带头作用,而且还可以引领国
目的:探讨相差显微镜与UF-100尿沉渣仪在鉴别肾小球源性血尿和非肾小球源性血尿中的临床应用价值。方法:利用相差显微镜BX51和UF-100尿沉渣仪分别对189例血尿标本进行检测分