基于深度学习的两类典型语音处理问题研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:chenan110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是人工智能领域最前沿的研究问题之一,在计算机视觉、语音处理、机器人控制、生物信息学等领域取得了惊人的进展。深度学习模拟人脑进行分析学习,通过抽象、组合简单的概念形成复杂的概念。相较于传统的机器学习算法,深度学习无需手工设计特征。本文基于深度学习研究语音处理中的两种典型应用问题,即语音匹配和结合听觉视觉的语音识别。从应用上讲,语音匹配与语音识别是语音处理的关键技术,广泛应用于语音检索与情报分析,研究深度学习在这两类问题上的应用具有重大的商业与军事应用价值。从理论上讲,语音匹配和语音识别分别是语音处理中的无监督问题和监督问题,研究这两类问题上的深度学习模型具有重要的学术价值。本文创新点如下:一、针对传统语音匹配算法泛化能力差的缺点,本文提出使用卷积深度置信网络(Convolutional Deep Belief Network,CDBN)进行语音特征的提取。CDBN结合了卷积神经网络有效处理高维数据以及深度置信网络无监督学习的优点,可以无监督地从高维语音数据中提取泛化能力强的特征。基于CDBN提取的二值特征,本文提出一种更加快速的语音特征匹配算法。实验结果表明,相对于基于色度能量归一化统计(Chroma Energy Normalized Statistics,CENS)特征的传统语音匹配算法,基于CDBN的语音匹配算法大大提高了语音匹配的命中率。二、针对音频信息与视频信息的时序性特性,本文提出一种多模态递归神经网络(Recurrent Neural Network,RNN)框架用于结合音频和视频的语音识别。该框架包含一个听觉部分用于处理音频数据,一个视觉部分用于处理视频数据,以及一个融合部分用于结合听觉部分和视觉部分。实验结果表明,基于多模态RNN的语音识别系统,成功融合音频和视频两种特征,有效提高仅基于音频数据的语音识别准确率,尤其是对于信噪比较低的数据,语音识别准确率得到较大提升。
其他文献
山区水库生态景观的构成方式有其明显的形态特征:既表现山体风貌的自然形态,又表现水库工程的人工形态。这种自然景观耦合于人工景观之中,且人工景观和自然景观的相互依存关
对实对称矩阵正交对角化过程中正交矩阵的求解方法进行了研究,给出了利用初等变换求解正交矩阵的方法,该方法不需要通过特征方程求解特征值与特征向量,仅仅使用初等变换和Sch
本文通过对2000~2008年OECD成员国个人所得税变化的分析,得出OECD成员国低收入纳税人税负下降、高收入纳税人税负上升,个人所得税最高边际税率普遍下降、税率档次进一步减少、
目的:观察防己黄芪汤联合甘露醇治疗对骨折后肢体低张力性水肿疼痛的影响。方法:121例骨折后低张力性水肿患者随机分为观察组和对照组,对照组给予甘露醇治疗;观察组在对照组
东部纺织业的经济效益比中,西部纺织业的经济效益好,而中、西部纺织业经济效益相差不大。探索东、西部纺织业经济效益产生差距的主要原因及西部发展纺织业的优势条件并提出发
目的:分析不同性质的小脑囊性肿瘤的MRI影像特征,旨在提高小脑囊性肿瘤的诊断率。方法:对31例经病理证实的小脑囊性肿瘤患者的MRI表现进行回顾性分析和总结。结果:本组31例小
选取2002—2015年货币供应量、上证综指、通货膨胀率、全国银行间同业拆借市场30天加权平均利率的相关月度数据,建立VAR模型,实证检验发现货币供应量对我国股票市场的影响不显
十八大报告从宏观层面高屋建瓴地将“生态文明”建设这一历史重任与使命设定为中国当代文化生产的重要方向与理论指南。余虹的“后人本主义”批评深入发掘了中国当代审美文化
目的:分析坪山新区、龙岗区社区护士临终关怀相关知识和需求的调查,为相关性知识培训提供依据,更好的提高临终关怀家庭照护质量。方法:采用自行设计调查问卷的方法,对167名社区
目的探讨细胞凋亡相关基因、增殖细胞核蛋白(PCNA)与胃癌细胞凋亡的相关性。方法采用原位末端标记法及免疫组化技术,检测115例胃癌及癌前病变患者和正常人胃黏膜上皮细胞凋亡