基于深度学习的端到端语音识别研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:a391137182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于深度学习的端到端模型被广泛应用于语音识别任务当中。在端到端模型中,声学特征序列与输出字素之间的映射关系是由模型本身而建立的,不需要任何人工的强制对齐。因而,相比于传统的混合式模型,端到端模型给予数据调节的空间,提高模型的整体契合度。然而,大量的实验表明,端到端模型往往需要大量的训练数据去训练才能达到混合式模型同样的识别效果,其根本原因在于当前端到端模型的结构和设计算法仍有待改进的空间。端到端模型主要包括基于注意力机制的编码器—解码器模型及CTC模型,本文将花费大量的篇幅对此加以介绍,并围绕现有注意力机制和CTC模型存在的问题进行改进创新,具体工作如下:1.针对基于卷积位置信息的混合式注意力机制无法充分考虑过去多个时刻的位置信息的问题,本文提出了结合LSTM单元的混合式注意力机制。该方法首先采用多个卷积核从当前注意力得分分布中提取多通道特征图;然后,使用全局平均池化对每一通道的特征图进行聚合以生成固定维度的向量;最后,把该向量作为LSTM当前时刻的输入便得到用于下一时刻注意力得分生成的位置向量。本文结合经典的LAS模型去对新型的注意力机制加以评估,最终的实验结果表明,改进的模型在纯净和噪声语音测试集上均取得最低的标签错误率,相比于基于卷积位置信息的LAS模型,分别减少了1.8%和2.21%。2.通过堆叠多层循环神经网络,CTC模型能取得更好的识别效果。然而,多层循环神经网络结构会带来较严重的梯度消失问题。针对该问题,本文提出了采用密集连接循环神经网络的深层声学模型。该模型对经典的Deep Speech 2模型的结构做出一定程度的改进,并引入密集连接循环神经网络使得特征和梯度的传递更加有效。最终的实验结果表明,改进的模型在中等规模的中文语音数据集上取得最低标签错误率,相比于Deep Speech 2,其在训练集和测试集上分别减少了5.21%和3.68%。
其他文献
依托大型工厂、工业设备,使旅游者亲身体验、感受的工业旅游在当前旅游业发展中占有比例越来越大。煤矿矿井旅游在工业旅游中占有比例显著提升,但是矿井作为生产基地与普通旅
2016年9月15日8时至17日8时,连续强降雨导致元谋全县境内多处发生泥石流灾害,特别是2016年9月17日9时黄瓜园镇海洛村及朱布村发生特大泥石流灾害(简称"9·17"泥石流),造成严
不得不承认,英国的汽车工业在品质和耐用性上多少存有一些争议,不过这并不妨碍我们以欣赏的眼光去看待这些充满历史沉淀和无限韵味的四轮机器。在走过了坎坷的历史后,“英伦范儿
在医疗纠纷中,纯技术原因引起的不到20%,非技术因素所致的纠纷占主要部分。而良好的医患沟通,可以使患者对相关诊疗具有客观的理解,避免该类医疗纠纷的发生[1]。    1非技术因素所致医疗纠纷的特点及原因  本文中非技术因素所致的医疗纠纷是指即使经过多方面的查证核实,医护人员在诊疗工作中确实尽了很大的努力,实际上并无医疗过错或事故,但是有的患者借说“医疗事故”而提出各种无理要求导致纠纷。该类纠纷主要
融媒体时代的来临对传统少儿刊物产生了巨大影响,令其面临着严峻挑战。以传统纸媒为主媒介的少儿期刊必须抓住融媒体时代发展的规律,逐渐从传统出版转向复合出版,谋求正确的
高光谱图像是利用先进的传感器技术和成像系统得到的,由于高光谱图像数据在社会生活的诸多领域有着广泛应用前景,对于高光谱图像的分析与处理已经成为遥感影像研究领域的研究
目的探讨老年2型糖尿病(T2DM)伴非酒精性脂肪肝(NAFLD)患者胰岛素抵抗(IR)与血清抵抗素水平的关系。方法选取T2DM伴NAFLD患者58例、单纯T2DM患者54例、健康对照组43例为研究对象。