基于联结时序分类与注意力机制的端到端语音识别研究

来源 :南京航空航天大学 | 被引量 : 2次 | 上传用户:mc_2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着指数级增长的语音数据不断产生,工业、农业、军事等领域对语音识别的需求与日俱增,对大规模语音信号精准高效的识别提出了更高要求。近几年,端到端语音识别成为语音识别领域研究的热门方向。相对于传统的隐马尔科夫混合模型,端到端语音识别模型一方面克服了隐马尔科夫混合模型中声学、发音、语言模型相对独立的问题,实现了全局统一优化;另一方面,无需进行状态的强制对齐与发音词典的构建,大大降低了模型构建的复杂性。论文紧紧围绕提高端到端语音识别的准确率与训练效率,着重对当前端到端语音识别的两种技术路线—基于联结时序分类(Connectionist Temporal Classification,CTC)、基于注意力机制(Attention)的端到端语音识别展开研究。主要工作和创新如下:1.针对基于CTC语音识别模型中循环神经网络造成的训练周期过长及模型深度不足的问题,认真分析群残差卷积网络和序列批标准化,创新性地将群残差卷积网络运用于构建CTC语音识别模型,构建了基于群残差卷积网络的CTC语音识别模型—GRCNN-CTC。群残差卷积网络中深度所带来的广泛感受野与残差结构带来的快速稳定收敛性,可以一定程度上代替循环神经网络对长时相关的语音特征进行时序建模。实验结果表明,构建的群残差卷积CTC网络模型在提高识别准确率的同时能够大大缩短训练周期。2.针对基于注意力机制语音识别模型中解码器状态向量与编码器状态向量对齐精度不高、解码网络输入特征表征性不足、独热编码造成的泛化性能不佳等问题,采用三种技术提升注意力机制语音识别模型的识别性能与泛化能力。一是构建Multi-Head注意力机制技术支撑下的注意力机制语音识别模型—Multi-Head LAS。将状态向量映射至不同表征子空间,从多个维度去计算当前解码器状态向量与编码器状态向量的相关系数,获得了更为准确的对齐信息。二是采用Input-feeding方法改进解码器输入流,用前一时刻多层感知器的状态向量代替前一时刻上下文信息向量,改善输入特征表征能力。三是运用标签平滑归一化技术引入标签噪声对模型进行约束、降低模型过拟合程度。实验结果表明,运用三种技术改进的注意力机制端到端语音识别模型能够有效提升模型的识别性能与泛化能力。
其他文献
回扣现象伴随中国旅游业的发展已近20年。随着旅游者消费权益意识的日益加强和中国加入WTO组织 ,回扣现象能否继续存在值得深思。本文通过界定回扣的概念 ,分析回扣的来源与
美国汉学源于欧洲汉学传统,虽然没有深厚的根源,却在1950年之后发展出自身注重文本解读、资料和理论阐发的特点。一部分华裔学者将这种美国汉学的特点运用于中国现代文学研究
末次冰期以来的陆地植被中C3/C4植物相对丰度变化的主要驱动因素曾被广泛的争论,尽管越来越多的研究者认同气候因素,而不是大气CO2浓度,是最主要的驱动因素.但对于某一具体的
在现有的沥青混合料再生技术研究成果基础上,对江苏某高速公路上面层二次现场热再生沥青混合料进行耐久性试验研究。目的是想通过室内试验验证二次再生沥青混合料依然可以通
本文以离散型随机变量分布列的确定为例,探讨了离散型随机变量分布列确定过程中存在的步骤。同时,结合几个具体的实例探讨了离散型随机变量分布列的具体确定方式,形成了离散
近年来,青藏高原湿地生物多样性逐渐降低、植被严重退化.种子库研究是开展受损湿地植物群落恢复的重要手段之一,而种子库的空间分布格局对研究地表植被的分布格局具有指导作
本文利用传统的国际贸易引力模型,考察了影响中国入境旅游的一些因素,包括经济发展水平、绝对距离、地理与文化上的差异性(共同性)、是否属于同一个贸易区,以及国家之间是否
《名利场》是十九世纪现实主义作家萨克雷的代表作,作品不仅描写了一个浮华社会中人们追名逐利的历程,而且也是十九世纪初期,维多利亚时期英国上层社会的真实写照。马斯洛需
旅游运营模式是影响“农家乐”可持续发展能力的一个重要因素。崇明“农家乐”目前所采用的让“农家乐”经营户挂靠村镇旅游服务公司的做法,其最大的弊端是旅游经营中各方权
通过对2007年全国各省财政与教育截面数据的定量分析,发现转移支付与地方政府对教育的财政投入之间有着显著的负相关关系,各地获得的转移支付使政府自身财政对教育投入的努力