基于结构化深度学习的语音识别自适应技术研究

来源 :上海交通大学 | 被引量 : 6次 | 上传用户:zz_davidli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络-隐马尔可夫模型的提出令语音识别在干净环境中的应用取得了巨大进展。然而,因为训练数据与测试数据之间的声学环境失配,语音识别的准确率在噪声环境下相比在干净环境下依然存在巨大的性能下降。因此,基于深度神经网络的说话人自适应技术成为当前语音识别领域的一个研究热点和难点。之前的相关工作因为缺乏对深度神经网络结构的先验设计,在自适应时需要估计大量的自适应参数,不能最有效的使用有限的自适应数据。本论文首先提出了基于结构化深度学习的自适应来更有效的进行基于深度神经网络的自适应和自适应训练,主要包括两个部分:基于结构化深度学习的特征自适应和基于模型结构化的深度学习自适应。随后,本论文提出了自适应的超深卷积残差网络并获得了抗噪语音识别中的最佳性能。基于结构化深度学习的特征自适应主要围绕基于说话人感知训练的自适应框架展开,提出了基于环境感知训练的循环神经网络自适应以及基于深度神经网络的在线自适应这两大方法。首先,提出了基于说话人感知训练的循环神经网络声学模型自适应,这是第一个将说话人感知训练运用在循环神经网络上的工作。在最基础的拼接结构上,本论文探索了两种新的结构来避免潜在的信息爆炸。此外,本论文提出了基于深度神经网络的说话人表示提取,并进一步设计了基于多任务训练和音素感知的结构来提取同时包含多种环境因素(比如说话人和单音素)的环境表示。该特征和传统i-vector一起用于基于说话人感知训练的循环神经网络自适应中,在会议语音识别任务AMI中取得了相对6.5%的性能提升。最后,我们将环境的概念扩展到了语言模型中,初步探索了两种基于题材感知训练的循环神经网络语言模型的自适应方法,在多题材广播节目的字幕生成任务中相比无自适应的语言模型取得了显著的性能提升。随后,本论文进一步探索了基于深度神经网络的在线自适应方法,提出了基于深度神经网络的多因子感知联合训练的创新框架。该框架提出了结构化的模型,将多个拥有不同功能的模块集成在一个深度计算型网络中。该方法使用深度神经网络在线地提取基于说话人、音素和噪声环境的表示,并将这些表示集成进主语音识别网络中用于提高网络的语音分类性能。它使用了多任务训练的框架来同时优化主语音识别网络和环境特征提取网络的参数,不需要显式的特征提取和自适应阶段,拥有和基线网络一样的解码实时率。我们在远场和抗噪语音识别任务AMI和Aurora4上验证了所提出的新框架,取得了比无自适应的基线系统相对10%到18%的性能提升。基于模型结构化的深度学习自适应的研究围绕基类自适应训练展开,本论文将其扩展到深度神经网络中:对于神经网络的一层,使用一组权重矩阵作为权重矩阵基;为每一种声学环境估计一个插值向量用于将权重矩阵基组合成一个环境独有的权重矩阵。由于在自适应时只需要估计这一维度很低的插值向量,因而该方法可以更有效的利用有限的自适应数据。同时,本论文证明了基于环境感知训练的自适应框架等价于使用了一组偏置基,因此可以作为基类自适应训练框架中的一个特例。该方法在电话语音识别任务Switchboard中取得了相对7.6%到10.6%的性能提升。自适应的超深卷积残差网络的研究针对目前抗噪语音识别中最有效的超深卷积残差网络展开,将本论文提出的两个自适应方法扩展到超深卷积残差网络中。本论文解决了二维输入无法和向量进行拼接的问题;探索了两种不同的网络参数作为基的方法;针对多种环境因子,提出了基于多因子的参数基结构。这一系列方法的共同应用在抗噪语音识别任务Aurora4上取得了单系统5.92%词错误率,这是目前业界最好的性能。最后,本论文综合了所提出的两类结构化深度学习方法,提出了多轮次解码的语音识别系统架构,在抗噪语音识别任务Aurora4、Chime4、AMI上进行了验证。其中在Aurora4上的性能已经接近于人类,在带真实环境噪声的Chime4和AMI上也取得了相对10%到39%的性能提升。总而言之,本论文成功地将结构化深度学习运用在了语音识别的特征自适应和模型自适应中,在电话语音识别任务以及抗噪语音识别任务上均取得了显著的性能提升,特别在Aurora4上取得了全业界最好的性能。
其他文献
五四新文化运动时期,围绕白话文与文言文的论争,形成了两大阵营。那一场场硝烟弥漫的论争,充满了激情、狡黠、机巧、趣味与智慧,点亮了新文化运动启蒙的天空。绝妙的“双簧"
即时通讯工具(IM)是现在使用非常广泛的网络通讯工具,它的实时性和易用性使它有了很广泛的使用人群。充分发挥即时通讯软件的功能,可以使它成为一种简单有效的学习工具,是对
近年来,随着全球能源短缺、环境污染和气候恶化等各种问题的日益严重,加速开发利用可再生能源已逐渐成为国际社会的共识,越来越多的分布式电源(DG)应用于学校、医院、大型写
<正> 绥芬河市是我国与苏联滨海边区接壤的唯一具有铁路、公路相接的口岸。近几年来,双边贸易额不断增加,进出口商品愈来愈丰富。我厂啤酒出口已逾千吨,并两次到苏联考察,签
本文从几何、代数、微分方程三门课程三个角度分析和判断了数学专业中非常重要的一个概念——线性相关性,给出了多种线性相关性的判断方法。通过对这些内容的分析,使学生对"
医学模式的哲学概念是医学观,是指人们对健康、医学教育、医学科研、疾病防治等医学问题的思维方式和处理方法,即总的看法[1]。而护理学作为现代医学领域中的一个重要的专门
综述了数控成形砂轮磨齿机砂轮修整方法,对所述修整装置的原理及特点进行论述,并对如何获得高的砂轮廓形精度进行了讨论。
以蒌蒿叶为材料,采用微波辅助提取总黄酮。在单因素试验的基础上,通过响应面法,对蒌蒿叶总黄酮的微波辅助提取工艺进行了优化,并对其抗氧化活性进行了研究。结果表明:微波辅
4月22日,为纪念第三十七个世界地球日,青海省国土资源厅在西宁市中心广场举行了以“善待地球——珍惜资源,持续发展”及“走过十五——国土资源可持续发展”大型图片展宣传活动,
广播剧继承小说的创作精神、文化特色,也具备和小说一样的功能性,通过小说叙事学的角度来解读广播剧的编剧艺术,可以发现广播剧和小说在作者创作、作品审美接受者等方面都具