深度学习神经网络在语音识别中的应用研究

被引量 : 0次 | 上传用户:liu723590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的语音识别技术以模板匹配法为主要方法,现代语音识别技术以神经网络为主要发展趋势。人工神经网络模拟了人类神经元活动原理,具有自学习、联想、对比、推理和概括能力,它为解决语音识别这样的一个复杂的模式分类问题提供了新的途径。深度学习是近年来新兴的一门机器学习子领域,该领域主要是探讨包含多层结点的人工神经网络的建模和学习问题。这种深度神经网络在面对复杂的智能问题时可以更好地进行处理,网络模型的信息处理方式在模仿人脑方面更进一步,模型可以好的用于进行语音识别。本文首先介绍了从语音采集,预处理,端点检测,到特征参数提取和时间规整网络各阶段的理论和算法。在语音的特征参数提取阶段,本文实际应用中美尔频率倒谱系数(MFCC)和美尔频率倒谱系数(MFCC)一阶差分,作为后续神经网络语音识别系统的输入数据。接着研究了基于反向传播算法(BP)神经网络的语音识别,采用基于MFCC与MFCC一阶差分混合参数的语音识别方法,可以更好地表现语音的特征,并对识别系统中的BP神经网络进行了优化,缩短了训练时间,提高了识别性能。深度学习算法中的限制玻尔兹曼机(Restricted BoltzmannMachine,RBM)模型相对比较容易学习,这种模型的算法克服了直接对多层网络进行训练的效率问题。因此,本文最后采用RBM堆叠构建深度信念网络模型(Deep BeliefNets,DBN)并用于非特定人语音识别。采用深度神经网络后,可以充分描述特征之间的相关性,可以把连续多帧的语音特征并在一起,由于采用模拟人脑的多层结构,可以逐级地进行信息特征抽取,最终形成适合模式分类的较理想的高维特征,从而提高识别效果。在DBN中,我们把时间规整后的MFCC与MFCC一阶差分混合参数作为输入数据,实验过程依据RBM设置规则对网络模型进行优化,增强模型的学习效果,并与传统BP模型作对比后发现可以达到一个较好的识别效果。
其他文献
尝试建立一种全新的智能助力装置虚拟样机模型,旨为提高下肢助力装置设计的效率与可靠性。将CATIA建立的机械模型导入ADAMS建立装置的三维虚拟样机模型,对助力装置的运动学及
将证券投资服务的金融消费者视为一个独立的法律概念,是对证券投资服务的消费者保护法制独立发展的回应。根据美国、英国、欧盟金融服务法中对"金融消费者"的法律定义和对"证
货币市场是指借贷期限在一年以内的短期资金市场,在一国金融体系中发挥着重要的作用。一般来说,货币市场的基本功能是融资功能,即解决市场主体的短期性或临时性的资金需求,然
对税收流失的治理是提高税收收入的重要保证。税收缺口反映了税收流失的相对规模。从国外相关实证研究结果看,地下经济、纳税习俗及征管效率对税收缺口的大小具有非常重要的
平等就业权是就业者平等地获得和维持就业机会的权利,作为平等权和就业权的结合,平等就业权是一项具体人权,它追求在平等基础上的实质平等,其核心内涵是就业者有权平等享有就
随着城市化的迅速发展、城市功能的多样化,处于城市的人类遗产正面临巨大的威胁。城市历史景观是联合国教科文组织为保护城市中的历史遗产、于2005年《维也纳备忘录》提出的
淀粉及改性淀粉以其低廉的价格、可降解性、对环境污染小等特点一直以来在造纸工业中得到广泛的应用。以淀粉为原料制备胶粘剂代替或部分代替传统石油基产品是符合环保要求的
随着全球化的不断推进,各个国家都意识到与其他国家合作的重要性,各国纷纷在双边或者多边关系中坚强双方的关系,尤其是在经济贸易方面。柬埔寨在1953年获得独立后,一直将吸引
三部曲的《四世同堂》是老舍在40年代的史诗巨著,小说通过战争作为“直接政治”对于老北平市民家庭的冲击,通过一个家庭的变迁,折射出了时代的变迁与历史的进步。本论文选取