基于改进混合CTC/attention架构的端到端普通话语音识别

来源 :西北师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户：martelfeng

【摘要】

：

端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基

【作者】

：

杨鸿武周刚

【机构】

：

西北师范大学物理与电子工程学院

【出处】

：

西北师范大学学报:自然科学版

【发表日期】

：

2019年3期

【关键词】

：

语音识别链接时序分类注意力机制混合CTC/attention 端到端系统 speech recognitionconnectionist temporal

【基金项目】

：

国家自然科学基金资助项目(11664036,61263036),甘肃省高等学校科技创新团队项目(2017C-03).

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long shor

其他文献

老年慢性病患者的预先指示现状及影响因素研究

目的:了解老年慢性病患者对预先指示(Advance Directives,AD)的认知现状并探讨影响因素。方法:应用自行设计的《预先指示调查问卷》对成都市5所三甲医院中400名老年慢性病患

期刊

老年人慢性病预先指示生前预嘱医疗决策代理

慢性鼻-鼻窦炎中金黄色葡萄球菌肠毒素基因研究

目的检测国人慢性鼻-鼻窦炎患者鼻腔金黄色葡萄球菌肠毒素基因谱,探讨与国人慢性鼻-鼻窦炎发病相关的金黄色葡萄球菌肠毒素基因类型。方法本实验取国人慢性鼻-鼻窦炎不伴鼻息

期刊

鼻炎鼻窦炎葡萄球菌金黄色肠毒素类基因rhinitis sinusitis staphylococcus aureus enterotoxins ge

优秀幼师生与一般幼师生人格特征的比较研究

优秀幼师生与一般幼师生人格特征的比较研究林仁平，吴红勤，焦文燕众多研究表明，一个人的学习成长和事业成功与其人格特征有着密切的关系。因此，深入研究幼师生的人格发展特点，特别

期刊

幼师生人格特征比较研究

胸痛中心准确筛查肺栓塞、主动脉夹层及急性心肌梗死低危患者的价值

目的:分析胸痛中心对准确筛查出肺栓塞、主动脉夹层及急性心肌梗死(AMI)低危患者的应用价值。方法:选取2016年9月至2017年9月未经胸痛中心处理的80例急性胸痛患者作为对照组,

期刊

肺栓塞胸痛中心急性心肌梗死低危主动脉夹层

金矿污染河流的水体和沉积物中重金属分布特征及生态风险评价

金矿开采导致严重的水体和沉积物重金属污染。采用电感耦合等离子体质谱仪（ICP／MS）分析了金矿开采区河道32个采样点的水体和表层沉积物样品，研究了水样的溶解态及颗粒态重金属（As

期刊

金矿开采沉积物重金属形态地累积指数潜在生态风险gold mining sediments speciation of heavy metals geo

异丙酚对大鼠下丘神经元第一动作电位延时-声强函数曲线的作用

目的探讨异丙酚对大鼠下丘神经元第一动作电位延时-声强（FSL-A）函数曲线的作用,以揭示异丙酚麻醉过程导致听觉消失的神经电生理学机制。方法无特定病原体（SPF）级SD大鼠43只,雌雄

期刊

二异丙酚第一动作电位延时声音下丘神经元propofol first spike latency sound inferior colliculus n

基于改进混合CTC/attention架构的端到端普通话语音识别

与本文相关的学术论文