陆空语音识别的深度网络模型研究

来源 :中国民航大学 | 被引量 : 3次 | 上传用户:killall2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年国内及国际航班数量一直在增加,这对于民航发展是一个机遇,但是对于民航安全是一个挑战。民航陆空通话对于民航安全十分重要,是空中交通管制员与飞行员之间传递指令的主要载体。在陆空通话过程中,由于通话双方疲劳、口音差异等原因造成指令错误理解时有发生。利用语音识别技术,将陆空语音转化为文字,对辅助飞行员正确理解空管指令,减少管制员工作量具有重要意义。因此本文针对陆空通话语音的识别问题,对陆空语音识别深度网络模型展开了研究,主要工作如下:第一,在陆空通话声学模型构建中,利用深度神经(Deep Neural Networks,DNN)网络,卷积神经(Convolutional Neural Networks,CNN)网络,长短时记忆(Long Short-Term Memory,LSTM)网络,双向长短时记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络结合隐马尔可夫(Hidden Markov Moedl,HMM)进行陆空语音声学建模,研究了不同神经网络对陆空通话声学模型的影响;为提升陆空通话声学模型性能,在训练中加入区分性训练方法进行模型优化训练。实验结果表明,基于BiLSTM-HMM模型的陆空通话语音识别结果最优,区分性训练可以有效提升声学模型性能,但是基于HMM的陆空通话声学模型训练存在训练过程复杂的问题。第二,针对陆空通话语音识别任务中HMM模型存在的不足,选取双向长短时记忆-时序链式连接(Connectionist Temporal Classification,CTC)模型对陆空通话语音进行端到端声学建模。同时在声学建模中,基于有限的实验数据集,加入数据增强方法和迁移学习的训练方法,进行BiLSTM-CTC模型训练。实验结果表明,使用BiLSTM-CTC进行陆空通话语音识别比HMM混合模型便利,数据增强能有效降低语音识别错误率,使用迁移学习训练方法能构建适用于陆空通话语音识别的声学模型,且能有效地提升模型性能。
其他文献
根据图像失真会引起图像内视觉敏感系数变化的特点,提出了一种新的部分参考型图像质量评价方法.利用Contourlet分解实现对图像内视觉敏感系数的提取,通过统计比较失真图像和原始
甲烷三重整反应(TRM,Tri-reforming of methane)具有过程能效高、合成气H2/CO适宜和较低催化剂积炭的优点。采用平衡常数法对TRM反应制合成气进行了热力学分析,研究了反应温
国有企业是我国国民经济的重要支柱,新中国成立以来,国有企业在我国经济中始终处于举足轻重的地位。如何对国有企业高管团队和高管人员实施绩效考核,建立健全约束与激励机制,
在我国构建能源节约型社会的今天,学生寝室节电节能方面中仍存在些问题,因此需要通过研究来优化用电管理。主要从用电管理制度方面、学生用电意识及习惯、寝室每月用电量以及
期刊
目的描述分析1999—2015年玉溪市红塔区及其乡镇伤寒与副伤寒(Typhoid and Paratyphoid Fever,简称TPF)病例的时间、区域和人群的分布特征;建立Gompertz模型,探索红塔区及其乡镇TPF病例时空变化节点与过程;建立红塔区及其乡镇灰色模型(GM(1,1)模型)和差分自回归滑动模型(ARIMA模型),预测2016年1—12月TPF月病例数,检验模型拟合效果和预测精度
新华社消息,随着“全面二孩”政策的实施,很多女性在求职过程中再次遭遇“只限男性”的歧视门槛,让她们更加失望的是,这些性别歧视的关键词不再见诸招聘公告,而是以难以察觉的“隐
报纸
综合论述了合金成分、氧含量、微量元素、冷却速度以及强度对低碳低合金钢焊缝韧性的影响。适当的合金成分、氧含量和微量元素是获得良好的焊缝冲击韧性的基本条件。对于一种
抗生素制药废水成分复杂、毒性大,处理不当将对环境造成持久性危害.本文概述了抗生素发酵废水的三类处理方法及其适用条件.生物法为降解废水中有机物的主要方法,物化法能耗成
随着数码相机和手机等成像设备的普及和数字图像处理技术的迅猛发展,人们可以很方便地获取和修改数字图像,在给人们生活带来了极大的便利同时,也带来了许多安全隐患。例如有