基于短语音的说话人识别方法研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ghf01508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为语音信号处理中的组成部分,有着广泛的应用前景,是人机交互领域重要的关键技术之一。然而在实际应用中,能够提取到的说话人语音较短,识别性能不稳定。为了提升人机交互的友好性,本文针对短语音说话人识别系统进行了一定的研究。首先,本文设计了说话人识别系统的整体结构,并对系统中各处理过程进行了分析,明确本文研究的研究重点为特征提取和声学模型识别。其次,针对短语音条件下,语音的偏向分布使提取的I-Vector具有不可靠的问题,本文提出一种基于生成对抗网络(Generative Adversarial Network,GAN)的I-Vector补偿方法,该方法训练生成器网络将短语音I-Vector生成一种补偿I-Vector,同时训练判别器网络判别输入的I-Vector是由生成器补偿生成,还是来自长语音I-Vector。最后,通过完成生成器网络和判别器网路的对抗训练,将从短语音中提取的I-Vector尽量补偿到它们对应的长语音I-Vector,补偿的I-Vector可以恢复丢失的信息,为后续说话人识别环节提供更优的语音特征信息。然后,考虑到短语音训练样本可能不足的情况,本文重点研究了声学模型和深度学习模型,提出一种新的基于I-Vector和深度神经网络(Deep Neural Networks,DNN)的混合模型双重判别方法。该方法通过概率线性鉴别分析方法(Probabilistic Linear Discriminant Analysis,PLDA)降低语音中的信道干扰,提高基于I-Vector的说话人识别模型在短语音下的鲁棒性。同时,采用DNN训练语音特征以提取短语音中的深层特征,实现对少量语音的有效训练和识别。最后,基于该混合模型提出的一种双重判别机制,能够有效克服训练样本少和易受干扰的缺点,从而提高短语音说话人识别系统的识别性能。最后,本文完成说话人识别系统在服务机器人上的集成实现,实验结果表明:在不同长度短语音环境下,结合本文改进方法的说话人识别系统,识别性能比原说话人识别系统有所提高,说明该说话人识别系统在实际应用环境中具有一定的应用价值。
其他文献
自1789年7月14日法国大革命爆发,到1958年10月4日第五共和国的建立,近代法国不断书写着革命的历史。与此同时,法国的刑事法律进程也带有鲜明的时代特征。受17、18世纪欧洲古典自然法学派的影响以及19世纪法典化思想的冲击,法国在吸收优秀思想成果的基础之上,颁布了包括《法国刑事诉讼法》(以下简称法国刑诉法)在内的一系列的法律规范,建立了较为完整的刑事法律部门,形成了相对完善的刑事法律制度,体现
目的:探讨对脑卒中康复期患者联合进行针灸治疗与功能康复训练对改善其生活质量的临床效果。方法:对近年来我院收治的96例脑卒中康复期患者的临床资料进行回顾性研究。我院随机
摘要:监督管理职责是指检察人员因故意或重大过失怠于行使或不当行使监督管理权,导致司法办案工作出现严重错误而应当承担的相应司法责任。监督管理责任与办案责任既有联系又有区别,其责任主体包括检察官、部门负责人、检察长和上级院。监督管理责任的调查和认定应当由公正、中立有权威的惩戒委员会负责。责任追究程序主要包括立案、调查、申辩、做出处理决定。  关键词:监督管理责任 办案责任 追究程序  2015年9月底
新零售背景下,互联网驱动下的技术推动和智能手机的广泛使用,使得人们的消费模式发生了变化,消费者对消费拥有了充分自主权,所以向新消费模式的消费者销售变得非常复杂。同时
春节是中华民族最为隆重的传统节日,贴春联是过春节的标志之一,基于各个民族文化的不同,春联形式稍有差异,有东巴文春联、蒙古文春联等,但中国传统春联多是以汉字为主的红纸