语音转换技术研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:yd310yd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换技术指的是,将一个人(源说话人)所说的一段语音,经过算法的自动修改,使其听起来像另一个人(目标说话人)所说的一样,同时保持这段语音的内容不变。本文在对语音转换基本理论进行了研究之后,提出了基于稀疏非负矩阵分解(Sparse representation Nonnegative Matrix Factorization,SNMF)的语音转换方法。然后在CMU ARCTIC语料库的基础上,将所提的SNMF方法与目前公认的基于ML-GMM(Maximum Likelihood Gaussian Mixture Model)的语音转换方法进行了比较,在主观听觉方面,该方法的转换性能与ML-GMM相当。并且在有限训练数据的情况下,将SNMF语音转换方法与ML-GMM方法一起进行对比实验。结果显示SNMF在确认度方面超过72%,而ML-GMM只有不到28%。同时,SNMF的主观听觉质量标准MOS为2.6,而ML-GMM的为1.8。相比之下,SNMF有更好的确认度和主观听觉质量。为了进一步提升SNMF语音转换系统的性能,降低其频谱失真度,本文对SNMF提出了两点改进方案。其一,考虑到语音信号具有既复杂多变又普遍相似的特点,为了提高非负矩阵分解对信号潜在特征的挖掘能力,本文引入了kmeans聚类算法,得到kmeansSNMF语音转换方法。该方法先对训练数据进行聚类,然后再在每一类里进行SNMF语音转换。实验证明,该方案极大的降低了SNMF的频谱失真度,并使得SNMF语音方法能够更加有效的利用大量训练数据。其二,考虑到帧间相关性在语音信号处理领域有非常重要的作用,本文引入了合成帧的概念,将前后连续的三帧组合成一个超帧,从而在kmeans SNMF的基础上引入了帧间相关性。实验结果表明,该方案进一步降低了频谱失真度,并且改善了转换语音的自然度,提高了主观听觉质量,其MOS值到达了3.78,优于经典的ML-GMM语音转换方法的3.70。受到SNMF语音转换方法的启发,在此基础上,本文应用联合非负矩阵分解的方法,同时对多个训练数据矩阵进行固定同一个激活矩阵的非负矩阵分解。基于该方法,本文实现了交叉语音转换系统。使得经典的一对一(源-目标)语音转换方法,变为多对一或者一对多的语音转换。
其他文献
无源滤波器应用极为广泛,其性能优劣直接决定产品的质量,对滤波器的研究和设计历来备受重视。传统的经典设计法由于人为干预过多、设计过程繁琐等缺点已经不能满足现在的技术发
容滞网络(DTN)是近年来发展起来的一种新兴网络技术。主要应用于大延迟、超长等待时间、间歇连通等极端环境下的网络通信。由于能够适应极端恶劣的通信环境,容滞网络一经发展
中国作为世界上增长速度最快,发展潜力巨大的葡萄酒消费市场,近几年来已经引起全球葡萄酒同行的广泛关注和高度重视.
多媒体通信系统在工业、医疗、商业和教育等各个方面发挥着重要作用,成为通信应用的研究热点之一。DSP具有强数据处理能力,为嵌入式多媒体终端提供了更高效更便携的实现平台,
短波通信技术是一种传统的通信技术,由于其设备简单、使用方便、灵活机动等优点得到广泛的应用,但是它频率资源有限、易受干扰等缺点也严重地制约了它的发展。现代短波通信采
“蒸”的好吃,在种种烹饪技法中,“蒸”最受推崇,它最早始于中国,中华千秋美食文化素有“无菜不蒸”之说.“蒸”,是将原料装于器皿中,以蒸气加热,使调好味的原料成熟或酥烂入
正交频分复用(OFDM)是一种特殊的多载波传输方案,它既可以被看作一种调制技术,也可以被当作一种复用技术,由于其频谱利用率高、可以有效对抗ISI、成本低等优点已被广泛运用于
电力变压器是电力系统中的重要设备之一,其正常运行对电力系统的安全运行和可靠性意义重大。绕组变形是电力变压器的主要故障之一,严重威胁着电力系统的安全运行。电力变压器在
毫米波无源探测系统可以对场景中物体辐射的毫米波段的能量进行探测进而实现对物体的成像。同时,它可以穿透烟尘,衣物,雨雾等进行探测,具有能够对场景中隐匿目标进行成像而不
无线传感网络是由大量功率受限的传感器节点组成,这些节点密集部署在空间中以监测物理现象。当传感网络中的传感器节点感知到有目标进入感兴趣区域内时,所有的节点将自己的本