基于深度学习的语音音素识别研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:jtk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术是将语音转换为文字的过程,它涉及声学、信号处理和模式识别等多个交叉学科。在语音识别研究中,提取可表示信号的深层特征、建立强大的声学模型和使用准确有效的解码算法对提高识别率都至关重要。传统的语音识别系统由高斯混合模型与隐马尔科夫模型构成,随着深度学习技术的成熟,以及计算设备性能的提升,语音识别技术逐渐发展为基于神经网络与隐马尔科夫模型的混合系统。端到端语音识别技术仅通过使用神经网络实现声学模型、语音模型和解码模块的统一训练,简化了传统语音识别系统的组成模块。本文为降低语音识别错误率,首先,从信号特征的优化处理角度出发,通过研究传统的优化方法以及特征串联融合方法,提出了基于子网络模型的深度特征融合方法;最后结合卷积神经网络与循环神经网络,并基于连接时序分类算法在TIMIT数据库上进行音素识别研究。本文的具体研究内容如下:(1)基于深度神经网络训练瓶颈特征提取网络并提取语音瓶颈特征;使用线性判别分析增强瓶颈特征中的音素类别信息,经过特征空间最大似然线性变换,使模型能够白适应说话人信息,提高对说话人噪声的鲁棒性,以及研究了不同网络结构得到的瓶颈特征对系统性能的影响。(2)为增强输入信息的多样性,研究了特征融合方法在音素识别任务上的应用。首先研究了模式识别中广泛使用的特征级串联融合方法;同时利用神经网络提取信号特征和整合信息的能力,提出了基于子网络的深度特征融合方法:使用子网络提取基于传统特征的深度特征,再通过融合网络建立各深度特征之间的联系,并进行融合学习。(3)结合卷积神经网络与循环神经网络并基于连接时序分类算法在TIMIT数据集上进行音素识别研究。将卷积神经网络和循环神经网络构成的混合网络作为模型的特征学习结构:通过卷积神经网络提取信号的局部稳定特征,并将卷积神经网络的输出作为循环神经网络的输入,再使用循环神经网络对信号的时间相关性信息建模;通过调整网络结构,使模型能够对数据集进行正常拟合。
其他文献
力离子电池是一种高效便捷的电能存储设备,由于具有高能量密度、长循环寿命和环保等优点受到了社会各领域的广泛关注。但是,金属锂资源非常有限、分布不均而且价格不断飞涨,限制了锂离子电池在储能领域的进一步发展。金属钠作为锂的同族元素,与锂有相似的物化性质,在地球上的储量较丰富并且价格便宜。因此,近年来,钠离子电池也渐渐引起了研究者们的兴趣。目前商业化的石墨碳作为锂离子电池负极存在着比容量低等缺点,无法满足
学位
高寒草甸生态系统是青藏高原最为重要的自然生态系统之一,在全球变化和人类活动引起世界范围内物种多样性丧失,青藏高原生态环境面临日益严重的退化威胁的生态背景下,开展有关高寒草甸群落时间稳定性及其影响因素以及稳定性维持机制的相关研究十分必要。随着许多实证研究证据的报道,生态学家发现群落中的正相互作用可能同竞争负相互作用一样普遍,并同样对群落构建有显著影响。以往关于时间稳定性机制的验证研究很少涉及对弱相互
学位
目的:探讨人文关怀结合安宁疗护对晚期肿瘤病人心理状态及自尊水平的影响。方法:选择本院收治的晚期肿瘤病人84例为研究对象,采用随机数字表法分为两组,每组42例。对照组采取常规护理干预,观察组在此基础上采取人文关怀结合安宁疗护,观察3个月。比较两组心理状态、自尊水平、癌性疼痛程度、癌因性疲乏、生活质量及病人满意度。结果:两组干预前症状自评量表(SCL-90)、自尊量表(SES)、视觉模拟评分(VAS)
学位
学位
学位
学位
学位