基于多任务神经网络的多维语音识别技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:majunchigg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪以来,信息技术的发展日新月异,在人工智能的浪潮下,实现简单、快捷、流畅的人机交互成为人们追求的目标。通过语音实现交互一直是人机交互领域重要的一部分,而语音识别技术正是人机语音交互的关键技术。近年来,研究者们在语音识别领域做了许多工作,取得了颇为丰硕的成果。真实环境中的语音信号是复杂的混合信号,其中既包含了丰富的语义信息,也包含了许多说话人相关信息(如身份、情感等)和环境信息,这也是我们人类能够顺畅沟通的前提。然而,目前绝大多数的语音识别研究主要集中在针对某单一内容或信息的识别,几乎没有研究能够像人一样同时识别语音信号中包含的多维信息。这样的单维语音识别模型忽略了人脑对多维语音信息的处理能力,摒弃了语音混合信号中多维信息之间的相关性,不利于机器理解语音的真正含义,也不符合智能化人机交互的要求。因此,为了使语音识别技术能够更加拟人化、智能化,本团队提出了对语音信号中的多维信息同时进行识别的课题,充分利用语音信号中丰富的多维信息,挖掘不同语音信息之间的相关性,对多项语音识别任务进行同时分类。本文在本团队前期研究的基础上,从分类模型构建和特征提取两个方面入手,研究说话人性别、情感、身份三类语音信息的同时识别。本文的主要工作和创新点如下:(1)本文将多任务学习(Multi-task learning,MTL)机制与循环神经网络(Recurrent Neural Network,RNN)结构相结合,充分利用语音信号中丰富的多维信息以及不同识别任务间的相关信息,构建了一个可以同时识别说话人性别、情感、身份的多维语音识别模型。模型采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征作为语音识别特征参数,选取带有属性依赖层的多任务神经网络结构,通过RNN共享层共享网络参数以学习各识别任务间的共有特征,通过全连接属性依赖层学习各识别任务自身的独有特征,利用MTL的机制调整模型总损失函数中各识别任务损失函数的权重,来针对语音数据库的特点进行性能优化,最终同时输出三种识别任务的识别结果。经过多项对比实验的验证,结果表明本文提出的基于MTL和RNN的多维语音识别模型在两种语音库上的平均识别率分别比单维识别高出3.01%和5.09%,三项识别任务均有一定的识别率提升,对于语种因素和说话人的个性因素有较好的鲁棒性,且具有一定的抗噪性能。不但展示多维任务识别的可行,同时也证明不同任务之间具有明显相关性,多维识别也是提高单维任务性能的重要方法。(2)由于基于MTL和RNN的多维语音识别模型采用的语音特征是常用的MFCC特征,其在特征提取时的各种滤波和变换操作去除了部分语音信息,而多维语音识别要求尽可能多的利用到语音信号中的多维信息。因此,本文将卷积神经网络(Convolutional Neural Network,CNN)结构与特征融合(Feature fusion)方法相结合,对特征提取部分进行改进,构建了一个基于CNN和特征融合的多维语音识别模型。将语音信号语谱图经过CNN提取的特征和人工提取的MFCC特征进行融合,充分利用了语音信号中的多维度信息,使两种特征进行互补,最后使用融合特征输入到多任务循环神经网络分类器中完成说话人身份、性别、情感三项任务的识别。经过实验验证,结果表明本文提出的基于CNN和特征融合的多维语音识别模型在两种语音库上的平均识别率分别比单维识别高出3.59%和6.01%,比MTL-RNN模型高出0.85%和0.99%,三项识别任务均有识别率提升,且具有更好的抗噪性能,证明了融合特征在多维语音识别上的有效性。
其他文献
氟碳铈矿是开采量最大的稀土矿物,其中稀土元素主要为铈、镧、镨、钕,铈含量较多约占50%,在稀土资源开采中扮演者不可或缺的角色。湿法冶金技术是目前应用最广泛的稀土提取技
2-甲基烯丙醇是重要的有机中间体,广泛用于农药、医药、香料、树脂和聚羧酸减水剂等有机合成领域,工业上大多以2-甲基烯丙基氯为原料,通过一步直接水解或者酯化-水解两步法合
蛋白质的结构多样性决定了其功能的多样性,预测蛋白质三维结构对疾病研究和药物开发都有着重要的意义。本文将运动学应用于蛋白质loop闭合问题,又将其扩展至控制蛋白质loop拓扑
在我国建设海洋强国的进程中,无人艇(Unmanned Surface Vessel,USV)发挥着至关重要的作用。在海上航行过程中,无人艇会受到海风、海浪、涌流等很多随机不确定的外界干扰,产生强烈的六自由度摇荡运动,使得海上作业过程存在着极大的安全隐患。因此,无人艇运动姿态的预报研究对于保障航行安全、提高作业效率具有重大意义。无人艇在海上的六自由度摇荡运动是一个复杂的时变、非线性、非平稳动力系统,
ABI5(AtDPBFs/ABFs)家族是一类亮氨酸拉链型转录因子。这类转录因子参与了植物种子胚胎发育晚期的基因表达调控以及ABA信号的传导。在拟南芥中,ABI5家族至少有八个成员,对这
岩性识别是测井解释中的重要环节,识别准确率影响着后续的储层划分、储量预测等勘探开发工作,正确识别岩性有着重要的地质意义。机器学习算法以其自学习、自组织、高度非线性和容错能力等优势,在解决岩性识别准确方面具有天然的优势。通过资料分析研究表明,测井过程中极易受到环境、设备等因素的影响,不可避免的在测井曲线中混入噪声数据。常选用小波阈值等降噪方法对原始测井数据进行处理,该方法可以有效的提高信噪比,但仍不
随着消费者需求的升级,消费市场呈现出多元化和个性化的态势,市场竞争活动也愈演愈烈。企业为了在激烈的市场竞争中占据一定的市场地位、获得市场份额,不得不随着市场的演变进行自我革新以求自保。单纯的从产品和技术层面进行创新已经不能满足消费市场的需求,只有更深层次的改变才能适应市场潮流。因此,商业模式上的创新逐渐走进人们的视野。金字塔底层战略(以下简称BOP战略)正是在商业模式创新过程中提出的。有研究认为,
商业银行是我国金融市场的重要组成部分,是支持我国经济发展而筹措资金的重要金融枢纽,如今随着我国银行业对外开放程度不断加深,一些具有先进管理理念而且竞争实力较强的外资银行纷纷进入中国市场,因此我国银行业各大商业银行所面临的挑战也是前所未有的。当前,我国银行业的发展正在面临战略机遇期——金融市场监管越来越严格,利率改革全面市场化,传统的银行绩效管理体系已经无法满足目前商业银行的发展需要。商业经营环境的
本文由三部分组成。第一部分,引入Hopf模余代数概念,并证明对任意Hopf模余代数都存在Smash余积与之同构,主要结果为:1.设H为Hopf代数,C为右H-Hopf模余代数,则存在Hopf模余代数同构(
机会网络(Opportunistic Networks)通过具备短距离通信能力的移动设备之间的移动接触机会传递消息,能够在没有任何通信设施的环境中自由组网,完成消息的传输。随着智能手机、