端到端自动语音识别技术研究

来源 :北京邮电大学 | 被引量 : 16次 | 上传用户:canyang419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言作为人们在人际交往中最主要的沟通途径,将来必然会成为人机交互与共融的重要桥梁。自动语音识别(ASR)可以表述为通过计算机将人类语音信号转录为书面形式的文字输出的过程,而早自20世纪70年代以来,自动语音识别问题就一直是机器学习界的一个重要研究课题。发展到现在,尽管传统的自动语音识别技术仍在被使用,但是解决了传统框架识别过程繁琐、难于优化等问题的基于深度神经网络的端到端模型在自动语音识别领域正逐渐成为研究热点与发展方向。在此背景下,本课题立足于深度神经网络结构框架,对端到端的语音识别技术进行研究。首先,分析当前两种主流端到端自动语音识别模型—CTC和基于注意力机制的模型,总结了二者存在的问题:1.CTC对输出单元之间作了相互独立性假设,但事实上这对上下文紧密相关的语音识别是并不合理的;2.注意力机制下允许不规则的输入输出对齐,但是通常语音识别却具有严格单调对应的输入输出。因此,本文提出了一种结合了CTC与注意力机制的端到端自动语音识别模型,并在开源英文语音数据集Librispeech识别任务上验证了模型的有效改进。其次,本文提出了一种新型编码-解码结构的端到端自动语音识别模型,基于循环神经网络的自适应映射模型(RAM)。RAM将语音识别任务看作序列到序列的映射问题,端到端地训练输入序列与目标序列对,引入“空白标签”达到输入与输出自适应对齐的目标,这点与CTC类似,但我们不再做输出独立性假设。再通过边缘化所有可能的空白标签来计算标签序列的概率。在Librispeech语音识别任务上的实验结果表明基于RAM的识别系统在没有额外语言模型的情况下,其识别性能相较于其他端到端模型是具有竞争力的。最后,针对普通话语音的发音特性,改进提出的新模型RAM以适用于普通话的语音识别,并在开源中文数据集AISHELL-1上验证了RAM模型在普通话语音识别任务上的有效性。此外,我们提出引入迁移学习方法,在大型英文数据集上预训练模型作为先验模型,再将他们移植至普通话的识别中,这不仅使训练更加高效,而且在性能上也获得了提升。
其他文献
高职教育是我国高等教育的重要组成部分,越来越受到社会的重视。随着移动互联网时代的到来,SPOC教学模式在高等教育中得到广泛应用。以高职英语课程教学为例,分析了基于SPOC
为探索沧州生态类型区主要农艺性状在玉米产量构成中的相对重要性,以及不同类型品种之间的差别,以自主选育的116个不同类型玉米杂交组合为研究对象,通过随机区组品比试验,进
针对风电功率序列非线性、非平稳性等特点,提出一种基于变分模态分解(VMD).排列熵(PE)和混沌布谷鸟搜索算法(CCS)优化相关向量机的短期风电功率预测新方法。为降低风电功率序
《今夜星光灿烂》是王安忆非虚构系列的第四本,书中共收录了五十八篇散文。书中的每一篇散文都记录了王安忆对于一个人的回忆和理解。这些人里有巴金、陈凯歌、陈丹青、葛优
对于一类带有模型不确定性、噪声干扰的线性系统,研究了其故障检测中的阈值设计问题。建立了残差与模型不确定性、噪声、控制输入、故障之间的关系;提出了基于信号L2范数与系统
本文以主持人的发问和嘉宾的回复为主要研究对象,在"男—男、男—女、女—男、女—女"四种会话模式下,对发问和回复展开分析。结果显示,会话双方在发问和回复时,大多数情况下
大豆(Glycine max(L.)Merr.)是典型的短日植物,对光周期反应敏感,在短日照条件(SD)下花期提前,而在长日照条件(LD)下,花期显著延迟。大豆开花期和成熟期因受种植区域生长季节
由于我国行政复议法对行政复议范围的规定不是十分明确,尤其是一些涉及复议范围的基本概念的内涵和外延不是十分清楚,在实际工作中容易形成争议,严重制约了行政复议工作的开
随着我国经济建设取得巨大成就,人们的生活品质不断提升,更加注重生活环境,对环境问题重视起来,节能环保意识加强,并在社会生产生活中的一些领域积极引入新技术来实现环境保
食物过敏已经成为了一个同时挑战消费者和食品加工厂的公共卫生问题。随着生物技术与工程食品的快速发展,如何脱除食物中的过敏原,制造低致敏性食品已经成为食品科技工作者的