歌声的声音转换方法设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dfly1818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号处理的研究有着较长的历史,随着计算机技术的飞速发展,又有了越来越广泛和新颖的应用前景,声音的转换就是其中一个重要的应用。  声音转换(VoiceConversion)是一种通过改变人的声音特征使得源唱歌人的声音听起来像另一个指定目标唱歌人的声音而保持唱歌内容不变的技术。声音转换技术在同声传译、电影以及电视中的剪辑和配音,以及语音合成后端声音的个性化处理方面都有着广泛的前景。目前主要的声音转换方法都是基于大规模声音训练样本的,这些方法需要对每一个唱歌人建立一个语料库,使得语料库的规模非常庞大,而且合成后的声音质量往往效果不理想。声音转换技术目前仍处于实验探索阶段。  本文基于歌声的声音转换主要是针对目前研究比较薄弱的连续语音以及带有很强节奏韵律的声音的音色转换,并且在小规模训练样本下音色转换的方法进行了探索。  本文的主要研究工作包括:  (1)特征参数的选取在音色转换过程中是非常关键的部分,它的精确度将直接影响着转换的效果。在全面分析语音信号的众多特征参数的基础上,本文采用并提取了LPC系数,进行音色转换,利用线性预测的残差可以非常好的模拟唱歌人声源的激励信号。  (2)现有音色转换的方法主要是基于GMM模型,隐马尔可夫模型和矢量量化技术等,这些方法都需要大量的训练样本才可以实现音色转换。本文采用了一种基于线性预测技术,无需训练样本或少量训练样本的语音转换模型,并在模拟实验中实现了声音转换。  (3)研究表明,基频(pitch)对人的音色形成具有重要的作用,因此,本文通过实验,采用基于TD-PSOLA的方法,通过改变基音频率实现音色转换,获得了对于非特定人声音音色转换的良好实验效果。  最后,本文对上述算法进行了实验评测,由实验得到的结论反映了在少量训练样本的情况下,音色转换的实现也是具有可行性的。为少训练样本的音色转换的进一步应用提供了基础。
其他文献
完备信息博弈已经有很多应用比较成功的解决方案。当电脑走棋的时候,根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行极大极小值搜索,找到
学位
近年来,无线通信技术、Internet技术以及移动设备的广泛应用促进了移动计算技术的发展。移动计算环境不同于传统的分布式计算环境,有着鲜明的特点:移动性、频繁断连性、资源的局
“对于运动的记录,无论其用于立刻或稍后分析、回放”都可以看作是运动捕捉[1]。如今运动捕捉技术已经取得了进步,被应用到动画制作、体育训练、虚拟现实、机器人控制等各个领
掌纹识别是利用人的掌部纹理进行身份确认的生物特征识别技术,它是生物认证领域的新分支。与先前的技术相比,掌纹识别具备的优势使他拥有广阔的研究前景。  本文一共介绍三种
装配在产品设计生产过程中起着重要作用,一个好的装配顺序规划和工艺规划,对改进产品设计、降低成本、缩短产品生产周期具有重要意义。由于装配是一个综合性的问题,需要综合不同
实时系统的正确性不仅依赖处理结果的正确性,同时更为重要的是要满足时间约束的要求,实时系统必须在一个可预测的时间范围内对外部事件做出响应。最坏执行时间(WorstCaseExecuti
近年来,图象处理、通信技术和计算机技术在交通领域得到了广泛的应用,其中车牌识别技术是研究的热点之一,车牌识别技术被广泛应用于过路收费系统和交通管理系统,其经济价值和现实
第三代移动通信技术经过二十多年的发展,理论上已经逐渐成熟。相比于2G,3G以多媒体为主要特征,支持多种速率的语音和数据业务,并以极强的适应性,能在任何时间、任何地点向任何人提
监控技术是在很多领域都广泛应用的技术,从最原始的人在现场的监控到网络监控,监控技术在不断的发展。但是当前的监控系统为二维控制界面或者采用视频监控技术,二维的用户界