语音转换中音段特征的建模与转换的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:mikelau1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换就是将一个说话人(源说话人)语音中的个性特征信息进行转换,使之具有另一个说话人(目标说话人)的个性特征,从而使得转换后的语音听起来就像是目标说话人的声音的一种语音信号处理技术。该技术不仅具有重要的理论研究意义,而且具有良好的应用价值,它的研究及发展研究愈来愈受到国内外学者的关注。本文的主要工作和创新如下:(1)简要介绍了语音转换的一些应用价值和当前的主要经典算法,讨论了常用的语音个性特征参数,以及语音转换系统的基本原理。(2)研究了经典的基音频率转换方法,针对经典算法在不同程度上存在转换精度和合成语音质量不高的情况。本文提出基于STRAIGHT模型和BP神经网络的基音频率转换算法。客观测试和主观测试上都取得了较好的效果。(3)研究了基于神经网络的频谱包络转换方法,考虑到神经网络训练算法有很多,但大都有一定自身的缺陷,针对梯度下降法训练速度慢和易导致陷入局部最优的问题,引出了基于量子粒子群优化BP神经网络的算法,并将其算法应用到的语音谱包络转换中,由粒子群优化算法训练的BP神经网络捕获说话人的语音频谱包络映射关系,以实现不同说话人之间声音特性的转换,该方法在一定程度上提高了转换语音性能。本文在MATLAB平台上仿真,从主观和客观两个方面评价系统的性能。仿真结果表明,本文所采用的转换方法能够取得较好的效果。
其他文献
近年来,随着移动互联网的迅猛发展,基于位置服务的市场需求量迎来爆发式增长。各种相关的应用层出不穷,如救援定位、购物指南、交通信息、手机地图等。与此同时LTE网络得到大
近年来由于智能手机和高带宽消耗应用的迅猛增长,无线蜂窝网络(Wireless Cellular Networks,WCN)经历了数据流量的巨大增长,这导致更多的能量消耗和温室气体的释放。在移动通
随着信息技术的迅速发展,网络规模变得日益复杂和庞大,多核处理器成为未来发展的趋势。适应大规模网络的离散事件仿真器成为重要的研究与开发领域,多核多线程技术成为该研究所采
RAKE接收技术是CDMA通信系统的关键技术之一,它可以分辨出接收信号中不同的多径分量,之后根据某些准则进行合并接收,从而克服多径衰落,提高系统性能。RAKE接收技术通过与其他
信息隐藏技术是一种在保证载体音频质量的前提下把要隐秘传输的信息嵌入到数字载体中来实现版权保护、隐秘通信等目的的技术。本论文主要研究信息隐藏技术中的回声隐藏技术。
数字荧光示波器(DPO,Digital Phosphor Oscilloscope)作为最新一代示波器,结合了传统模拟实时示波器(ART, Analog Real-Time Oscilloscope)与第二代数字存储示波器(DSO, Digital S
随着数字音视频技术和消费类电子产品的发展,模拟广播已无法满足人们对声音质量和附加数据业务的需求。欧洲的DRM标准和美国的IBOC技术,实现了模拟AM广播的数字化。考虑到国情
在电力系统的信息化建设过程中,由于现有的信息系统开发时间不同,使用的操作系统、系统模型、数据格式等都各异,系统间信息交互困难,导致各部门、各企业资源不能充分共用、信
随着无线通信的发展,对频谱资源的需求越来越大,传统的频谱分配方式受到了极大的挑战,频谱的利用率偏低。认知无线电技术被认为是解决这个问题的最佳方案。其中动态频谱分配
随着无线通信系统的广泛应用,频谱资源日益减少,干扰日益增多,但是人们对于通信质量和传输带宽的要求却越来越高。为了提高通信系统的工作性能,需要对硬件设备和通信协议进行