约束条件下的结构化统计声学模型及非平行语料语音转换

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wrc_166
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是指将A说话人的语音进行转换并使其听起来像B说话人的语音,且保持语义内容不变的一种技术。传统的说话人语音转换方法大多基于平行语料,通过对平行训练语料的联合训练得到短时谱转换函数。但由于实际情况的限制,完全平行的高质量训练语料是非常难以获得有时甚至是不可能获得的,并且联合训练计算量大,故平行语料语音转换的发展受到限制。本文提出约束条件下结构化高斯混合模型并将其应用于非平行语料语音转换。首先,从源与目标说话人的非平行语料中提取出少量相同音节,在结构化高斯混合模型(SGMM:Structure Gaussian Mixture Model)的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在期望最大化迭代过程中对语音帧属于某高斯分量的后验概率进行修正,训练出基于约束的结构化高斯混合模型。然后,根据全局声学结构原理,利用模型快速匹配算法对源和目标说话人的约束条件下的结构化高斯混合模型的高斯分布进行匹配对准,得到短时谱转换函数。主观及客观评价实验结果表明,在转换后语音与目标语音之间的谱失真,转换后语音的目标倾向性和转换后语音的质量等方面,使用本文提出的转换方法优于传统的结构化语音转换方法,转换系统的性能也与基于平行语料的语音转换方法的性能更为接近。本课题主要对以下几个方面进行研究:1、通过对高斯混合模型(GMM:Gaussian Mixture Model)的理解和分析,将GMM应用于平行语料语音转换系统,对其转换性能进行评价并指出该方法的特点及存在的问题。2、深入研究全局声学结构及其原理,详细分析传统结构化非平行语料语音转换方法存在的问题,提出了一种快速模型匹配算法和基于约束条件的结构化高斯混合模型的非平行语料语音转换方法。3、在基于少量约束信息的基础上,实现高质量结构化非平行语料语音转换系统。4、利用主观和客观测评准则,对传统的高斯混合模型转换法,传统的结构化方法以及约束条件下的SGMM(C-SGMM)方法的实验结果进行测评,并对测评结果进行详细的分析,说明本课题提出方法的有效性及优越性。
其他文献
近年来,网络资源数量成几何级数发展,各种类型的资源平台也层出不穷,网络资源成为互联网的宝贵财富。网络资源是利用计算机系统通过通信设备传播和网络软件管理的信息资源,是一些
本文通过对智能视频监控中行人检测与跟踪技术的研究与分析,针对其存在的问题,从运动目标的检测、行人的识别、运动目标的跟踪和计数的功能四个方面对行人检测与跟踪进行设计
近年来,随着网络技术和通信技术的不断发展,用户对网络的需求日益多样化。基于IP交换网络的多点视频会议系统的实现由于其成本的低廉、交互性强大、多点共同参与的特点成为了
随着汽车电子的不断发展,人们对汽车安全性的要求越来越高。车辆乘员保护系统(Supplemental Restraint System,SRS)从上个世纪六十年代发展至今,形成主动安全系统和被动安全
自动聚焦是数字图像处理中的一项关键技术。随着相机、摄像机等数码产品的流行,电子扫描仪、医学显微镜等精密仪器的发展,以及卫星导航、计算机视觉等高端技术的需要,自动聚
自从20世纪80年代初期第一片数字信号处理器芯片(Digital signal processors,DSP)问世以来,DSP就以数字器件特有的稳定性,可重复性,可大规模集成,特别是可编程性和接口简单等特点,
随着微博应用的飞速发展,微博用户数量和信息数量呈爆炸式增长,微博平台逐步进入信息过载阶段,有效的微博用户推荐成为提高用户体验度的关键技术。论文以中心用户为种子启动微博
正交频分复用(OFDM)技术具有良好的频谱利用率、抗符号干扰和抗多径衰落等优点,是无线通信领域的研究热点。本文着重研究基于混沌序列的OFDM同步算法。首先在分析已有的几个
本文主要研究了焦作移动GSM网GPRS/EGPRS专题优化方案,同时在工作实践中基于提高工作效率需要进行了大量的创新工作,取得了一些实用的创新成果。论文的目标是做出满足焦作移动
运营动车组的跟踪检测可为高速铁路安全经济运行提供重要数据,但问题在于检测系统的布线会严重影响旅客的乘车环境,难以实施。蓝牙成本低、功耗小、保密性强,已成为全球PDA(Pe