论文部分内容阅读
摘 要:本文主要分析了Vocaloid3歌声合成的原理,并探讨了这款软件操作和效果方面的不足,最后重点提出了与算法和文本处理等有关的四点建议。
关键词:Vocaloid3;歌声合成;算法;文本处理
歌声合成技术是指通过语音合成技术相关技术让计算机合成出模拟人声的歌声。优点在于便于创作和修改,能获得较为完美的歌声。这是一个非常有前景的方向。比如,相应的虚拟歌手可以创造巨大收益,它们与真实歌手无异,也可以出唱片、开演唱会。目前最有名的是初音未来,她是基于Vocaloid软件作为音源的虚拟歌手,每天都有成千上万的粉丝为其创作。此外,歌声合成也突破了人类生理限制,音域广、歌唱速度的可调节性也是它独特的优势之一。因此,这方面的研究非常有价值。
1 研究现状
目前,学界关于研究歌声合成的研究处于起步阶段,主要集中在原理研究阶段。比如Vocaloid的开发者剑持秀纪先生在《Vocaloid-Commercial singing synthesizer based on sample concatenation》一文中剑持秀纪谈及了Vocaloid的开发,生存现状,插件的兼容性以及和其他合成技术的对比。杨心祎的《歌声合成技术与应用研究》(2015)结合Vocaloid3分别对歌声合成技术在音乐创作中的应用及其技术原理的研究。周树森的《基于语料库的歌声合成方法》(2008)、李锦珑在《基于参数修改的中文歌声合成算法的研究》(2011)等讨论了歌声合成技术的算法,主要包括波形拼接和统计模型方法等。李锦珑,杨鸿武,梁青青,裴东,刘慧娟先生的《歌词到歌曲转换系统的实现》(2010),此文重点研究了如何以旋律控制模型结合语音合成技术,实现从中文歌词到歌曲的合成。
综上,目前歌声合成技术的研究一定程度上都局限于理论探讨,很少有从实际操作中对操作者的体验进行总结的研究。因此,本文基于VOCALOID3原理与实际操作中的问题提出相应建议。
2 Vocaloid3歌声合成原理
本文选取的研究对象为Yamaha开发的电子音乐制作语音合成软件VOCALOID3。VOCALOID的原型由剑持秀纪(Kenmochi Hideki)率领西班牙大学的研究小组开发。主要通过音调和歌词的输入,目的是将两者整合输出为合成为原为人类声音的歌声。2004年1月15日发布第一版,目前最新版本是VOCALOID4,但是由于汉化版难以获取,而且这几个新功能与本研究关系不是很大,所以,本文选择了VOCALOID3作为研究对象。
2.1 歌声合成器
Vocaloid3主要基于西班牙庞培法布拉大学的Music Technology Group(MTG)在歌声合成方面的研究成果,他们提出了基于表演采样的歌声合成方法。这一方法并不直接对歌声波形进行拼接,而是基于源一滤波器模型提出了EpR(Excitation plus Resoiiances)声音模型,使用该模型对歌声进行参数化。
合成歌声时,分为两步,第一步为根据输入乐谱生成表演轨迹,表演轨迹包含了声音空间中所有的值,第二步为根据表演轨迹进行搜索匹配和修改转换。
2.2 音源库原理
音源库(Singer Library)作为系统架构的重要组成部分,任何通过Vocaloid许可的音源库或数据库中的声音片段都采样自真实的人声素材。该音源数据库必须包含相对应目标语言中所有音素以及所有可能的因素组合,包括双连音(又称双音素,为相连的两个不同的音素的组合)和长元音(sustained vowels,即持续时间相对较长的元音);必要时,还需要包括成分超过两个音素的多音组合(polyphones,大于或等于三个音素的组合)。
Vocaloid系统的原理是通过改变这些采样素材片段的音高,从而使它们能符合旋律的走向。为了获得更自然的声音,即缩短原始素材与目标的音高差,每个片段需要在音源库中储存三个到四个不同的音高范围的素材。而且准确度不一定高。例如,由于日文本身的特点就是音素的含量较少,这就造成把双音素记录到英语音源库的难度比日语音源库要大得多。虽然早前日本版本的Vocaloid发行商声称可以唱出英文,但从理论性和技术性的角度来说这是较难实现的,因此,日版音源库调试英语歌曲时,使用的都是和式英语发音,还原度并不高。
波形拼接这一原理产生的歌声质量较高,但这一方法建立声音空间的过程非常复杂,需要完全人工介入,工作量庞大,每种语言也需要重新建立大量规则。导致Vocaloid软件的实际操作也非常繁琐,要想得到理想的音频,后期需要大量的人工的参数调节。另一方面由于需要存储的参数非常多,占存储空间也比较大。
3 操作过程的不足
3.1 处理过程繁琐
Vocaloid3虽然是目前市场普及最广的歌声合成软件,能够合成较为理想的音频文件,但是实际操作过程非常繁琐。而且自身的功能也不是特别完善,比如不能直接进行歌词的一次性输入。
歌曲的部分剪辑也存在问题,如果midi文件中存在很多空白段,并不能進行快速的删减,如果要在Vocaloid3中进行编辑,只能选择将后面的音段前移,选择过程也只能进行部分选择,操作过于繁琐,所以,在歌曲编辑完以后用别的音频软件进行空白音段的剪辑反而更方便。
3.2 汉语拼音与国际音标之间的转换存在缺陷
实际调试的过程中,虽然可以进行拼音的拆分,但是由于很多汉语音节并不能直接用合适的国际音标表示,国际音标的匹配过程也较为复杂。
3.3 调试功能不够完善
此外,它自身功能不能满足歌曲的调试,网络上有很多调试爱好者制作了很多插件,以满足调试需求。将所选区域音符延长至相连的Connect Notes连接音符、起到低声说话效果的Whisper、EG DYN动态控制、ZigZagDYN动态控制、Insert Rest缩距插入、Timing Randomize随机、Adjust Gain DYN增益、Vibrato Type Conversion颤音类型转换等。但是,安装和处理这些插件也是一件比较繁琐的事情。最好的方法是在进行软件升级的过程中择优整合一些比较好的插件,完善软件自身功能。 3.4 字过于正
语音合成的音乐中,所有的字都唱得非常清晰,缺少字句之间的自然衔接,导致整首歌有一种咬字过重的感觉。这一点也导致给字句之间自然过渡的听觉时间减少了,导致歌曲的流畅度大打折扣,这一点单靠调试很难解决。
4 建议
4.1 加入汉语声调调节的操作
该软件并没有将汉语的声调纳入处理过程。汉语声调作为区别意义的重要部分,并没有在歌曲处理中得到体现。虽然对于歌词意义的表达无太大影响,但是影响了歌曲意境、情感,以及流畅度的表达。
杨仕芳在《歌唱语音形态研究——以汉语歌唱中的“声调”为例》中提出由于声调它是属于相对音高,而音乐旋律它是属于绝对音高,在歌唱中即要注重旋律的绝对音高,又要把握好声调的相对音高,还要关注音节之间声调音高的对比特性,只有三者配合融洽才能根据音乐的旋律形态准确地具有不同调值音高的音节,使音节之间达到自然地连接。中国传统声乐演唱中的“以字行腔”的手法,在一定程度上就是要根据语音的声调来进行即兴的旋律装饰和润腔,从而形成风格独特的歌唱语音形态。
汉语属于单音节语,即一字一音,因而声调的音高存在使具有很强的表意功能,也容易产生抑扬顿挫的美感效果。如果将这一因素考虑至歌声合成当中,便可以让歌声的过渡得更加自然。这里的声调并不局限于传统的调值,而是一个相对值。针对前面所说的“字过于正”,我们可以将声调考虑其中,让声调随着音高变化,有利于缓和歌曲的生硬感。
比如维吾尔族民歌《掀起你的盖头来》中,语音重音应着重强调“掀”的动作、掀的对象“盖头”,还有掀后所看到的形象一“眉毛”、“眼睛”、“脸儿”。这些词语和音节在演唱时声调音高应向高频靠近外,更重要的是声调的“音长”要拉长,声音要饱满,同时音量也要加大。其中“掀”这个音节主要是拉长声调的“音长”;“盖头”这个词语主要是强调“盖”这个音节声调的“去声”发声特征,同时延长声调的“音长”并加大“音量”,音节“头”则在声调的发声上作“轻声”处理;“眉毛”、“眼睛”、“脸儿”这几个词语的的声调重音化主要体现在对词语第一个音节声调“阳平”的“上阳性”作着重强调,主要是延长声调的“音长”,第一个音节作“轻声”处理。不过,每一首歌声调变化的位置都不一样,为了简化软件操作,可以增加一个标记插件,在文本处理前进行简单的标记,就可以让后期的操作更加简单。
4.2 结合隐马尔可夫模型的歌声合成模型
软件原有的处理方法Music Technology Group(MTG)建立声音空间的过程非常復杂,而Vocaloid的语种涵盖较为广泛,为了更好更快的处理语言文本,合成出自然的歌声,我们可以结合隐马尔可夫模型,简化繁琐的语言模型。通过基于EpR(Excitation plus Resoiiances)声音模型统计文字的发音概率,建立隐性表现概率矩阵B,再统计字词之间的转换概率。就可以得到较为精确的歌声基频。比如:将乐谱中包含的基频信息引入到歌声基频的生成算法中,避免了因数据稀疏而造成的合成音高在时间和频谱结构上出现偏差的问题,可以合成出与乐谱相一致的具有精准音高的基频。
4.3 文本分析过程中增加歌词与音符匹配处理环节
Vocaloid的文本分析过程中最大的问题就是文本与曲谱没有建立有效的联系,导入歌词的过程也无音乐逻辑,现有的歌词录入法只是机械的将拼音一次性放入曲谱中,这种方法对于复杂的歌曲而言不具备可行性。因此,系统需要提前对歌词进行分析。在歌词录入的前期对文本进行语音的频谱、音节时长、语音特征等方面的分析,为歌词与曲谱的结合提供那个数据基础,再在最后面的合成过程中加入歌词与乐谱的匹配度分析,提高歌词与乐谱的粘合度。
4.4 基于二次创作的改进
Vocaloid的用户群主要以二次创作人群为主,即对已生成的歌曲进行再加工再创造。“真正让Vocaloid以及基于其制作的音乐广为传播的不是音乐本身,而是来自于基于这些音乐的二次扩展创作。”只有在处理好原有歌曲数据的前提下,才能为二次创作提供更好的基础。
从以上分析可知,用Vocaloid创作歌曲的主要问题集中在歌词输入和参数调节,其主要原因是音源库缺乏对歌词与音乐的匹配处理,以及拟人化参数处理。解决这两方面的问题可以从原有歌曲的分析处理方面入手。即增加原歌曲预处理步骤。在歌曲制作之前增加一个导入原有歌声的步骤,让系统对歌曲进行预处理,并获得相关参数以后,增加音频文件转midi和VSQ文件的处理,可以增大歌曲成曲的质量,二次创作也会更加容易。如果预处理后只留取相关参数,对原有运行空间的影响并不大。
参考文献:
[1] 剣持秀紀,大下隼人.VOCALOID-Commercial singing synthesizer based on sample concatenation[J].IPSJ SIG Technical Report,2008(2):P10-23.
[2] 李锦珑,杨鸿武,梁青青.歌词到歌曲转换系统的实现[J].计算机工程与应用,2010(16):124-126.
[3] 周树森.基于语料库的歌声合成方法[D].硕士.哈尔滨工业大学,2008.
[4] 李锦珑.基于参数修改的中文歌声合成算法的研究[D].硕士.西北师范大学,2011.
[5] 杨心祎.歌声合成技术与应用探究[D].硕士.南京:南京艺术学院,2015.
[6] 杨仕芳.歌唱语音形态研究——以汉语歌唱中的“声调”为例[D].硕士.重庆:西南大学,2013.
关键词:Vocaloid3;歌声合成;算法;文本处理
歌声合成技术是指通过语音合成技术相关技术让计算机合成出模拟人声的歌声。优点在于便于创作和修改,能获得较为完美的歌声。这是一个非常有前景的方向。比如,相应的虚拟歌手可以创造巨大收益,它们与真实歌手无异,也可以出唱片、开演唱会。目前最有名的是初音未来,她是基于Vocaloid软件作为音源的虚拟歌手,每天都有成千上万的粉丝为其创作。此外,歌声合成也突破了人类生理限制,音域广、歌唱速度的可调节性也是它独特的优势之一。因此,这方面的研究非常有价值。
1 研究现状
目前,学界关于研究歌声合成的研究处于起步阶段,主要集中在原理研究阶段。比如Vocaloid的开发者剑持秀纪先生在《Vocaloid-Commercial singing synthesizer based on sample concatenation》一文中剑持秀纪谈及了Vocaloid的开发,生存现状,插件的兼容性以及和其他合成技术的对比。杨心祎的《歌声合成技术与应用研究》(2015)结合Vocaloid3分别对歌声合成技术在音乐创作中的应用及其技术原理的研究。周树森的《基于语料库的歌声合成方法》(2008)、李锦珑在《基于参数修改的中文歌声合成算法的研究》(2011)等讨论了歌声合成技术的算法,主要包括波形拼接和统计模型方法等。李锦珑,杨鸿武,梁青青,裴东,刘慧娟先生的《歌词到歌曲转换系统的实现》(2010),此文重点研究了如何以旋律控制模型结合语音合成技术,实现从中文歌词到歌曲的合成。
综上,目前歌声合成技术的研究一定程度上都局限于理论探讨,很少有从实际操作中对操作者的体验进行总结的研究。因此,本文基于VOCALOID3原理与实际操作中的问题提出相应建议。
2 Vocaloid3歌声合成原理
本文选取的研究对象为Yamaha开发的电子音乐制作语音合成软件VOCALOID3。VOCALOID的原型由剑持秀纪(Kenmochi Hideki)率领西班牙大学的研究小组开发。主要通过音调和歌词的输入,目的是将两者整合输出为合成为原为人类声音的歌声。2004年1月15日发布第一版,目前最新版本是VOCALOID4,但是由于汉化版难以获取,而且这几个新功能与本研究关系不是很大,所以,本文选择了VOCALOID3作为研究对象。
2.1 歌声合成器
Vocaloid3主要基于西班牙庞培法布拉大学的Music Technology Group(MTG)在歌声合成方面的研究成果,他们提出了基于表演采样的歌声合成方法。这一方法并不直接对歌声波形进行拼接,而是基于源一滤波器模型提出了EpR(Excitation plus Resoiiances)声音模型,使用该模型对歌声进行参数化。
合成歌声时,分为两步,第一步为根据输入乐谱生成表演轨迹,表演轨迹包含了声音空间中所有的值,第二步为根据表演轨迹进行搜索匹配和修改转换。
2.2 音源库原理
音源库(Singer Library)作为系统架构的重要组成部分,任何通过Vocaloid许可的音源库或数据库中的声音片段都采样自真实的人声素材。该音源数据库必须包含相对应目标语言中所有音素以及所有可能的因素组合,包括双连音(又称双音素,为相连的两个不同的音素的组合)和长元音(sustained vowels,即持续时间相对较长的元音);必要时,还需要包括成分超过两个音素的多音组合(polyphones,大于或等于三个音素的组合)。
Vocaloid系统的原理是通过改变这些采样素材片段的音高,从而使它们能符合旋律的走向。为了获得更自然的声音,即缩短原始素材与目标的音高差,每个片段需要在音源库中储存三个到四个不同的音高范围的素材。而且准确度不一定高。例如,由于日文本身的特点就是音素的含量较少,这就造成把双音素记录到英语音源库的难度比日语音源库要大得多。虽然早前日本版本的Vocaloid发行商声称可以唱出英文,但从理论性和技术性的角度来说这是较难实现的,因此,日版音源库调试英语歌曲时,使用的都是和式英语发音,还原度并不高。
波形拼接这一原理产生的歌声质量较高,但这一方法建立声音空间的过程非常复杂,需要完全人工介入,工作量庞大,每种语言也需要重新建立大量规则。导致Vocaloid软件的实际操作也非常繁琐,要想得到理想的音频,后期需要大量的人工的参数调节。另一方面由于需要存储的参数非常多,占存储空间也比较大。
3 操作过程的不足
3.1 处理过程繁琐
Vocaloid3虽然是目前市场普及最广的歌声合成软件,能够合成较为理想的音频文件,但是实际操作过程非常繁琐。而且自身的功能也不是特别完善,比如不能直接进行歌词的一次性输入。
歌曲的部分剪辑也存在问题,如果midi文件中存在很多空白段,并不能進行快速的删减,如果要在Vocaloid3中进行编辑,只能选择将后面的音段前移,选择过程也只能进行部分选择,操作过于繁琐,所以,在歌曲编辑完以后用别的音频软件进行空白音段的剪辑反而更方便。
3.2 汉语拼音与国际音标之间的转换存在缺陷
实际调试的过程中,虽然可以进行拼音的拆分,但是由于很多汉语音节并不能直接用合适的国际音标表示,国际音标的匹配过程也较为复杂。
3.3 调试功能不够完善
此外,它自身功能不能满足歌曲的调试,网络上有很多调试爱好者制作了很多插件,以满足调试需求。将所选区域音符延长至相连的Connect Notes连接音符、起到低声说话效果的Whisper、EG DYN动态控制、ZigZagDYN动态控制、Insert Rest缩距插入、Timing Randomize随机、Adjust Gain DYN增益、Vibrato Type Conversion颤音类型转换等。但是,安装和处理这些插件也是一件比较繁琐的事情。最好的方法是在进行软件升级的过程中择优整合一些比较好的插件,完善软件自身功能。 3.4 字过于正
语音合成的音乐中,所有的字都唱得非常清晰,缺少字句之间的自然衔接,导致整首歌有一种咬字过重的感觉。这一点也导致给字句之间自然过渡的听觉时间减少了,导致歌曲的流畅度大打折扣,这一点单靠调试很难解决。
4 建议
4.1 加入汉语声调调节的操作
该软件并没有将汉语的声调纳入处理过程。汉语声调作为区别意义的重要部分,并没有在歌曲处理中得到体现。虽然对于歌词意义的表达无太大影响,但是影响了歌曲意境、情感,以及流畅度的表达。
杨仕芳在《歌唱语音形态研究——以汉语歌唱中的“声调”为例》中提出由于声调它是属于相对音高,而音乐旋律它是属于绝对音高,在歌唱中即要注重旋律的绝对音高,又要把握好声调的相对音高,还要关注音节之间声调音高的对比特性,只有三者配合融洽才能根据音乐的旋律形态准确地具有不同调值音高的音节,使音节之间达到自然地连接。中国传统声乐演唱中的“以字行腔”的手法,在一定程度上就是要根据语音的声调来进行即兴的旋律装饰和润腔,从而形成风格独特的歌唱语音形态。
汉语属于单音节语,即一字一音,因而声调的音高存在使具有很强的表意功能,也容易产生抑扬顿挫的美感效果。如果将这一因素考虑至歌声合成当中,便可以让歌声的过渡得更加自然。这里的声调并不局限于传统的调值,而是一个相对值。针对前面所说的“字过于正”,我们可以将声调考虑其中,让声调随着音高变化,有利于缓和歌曲的生硬感。
比如维吾尔族民歌《掀起你的盖头来》中,语音重音应着重强调“掀”的动作、掀的对象“盖头”,还有掀后所看到的形象一“眉毛”、“眼睛”、“脸儿”。这些词语和音节在演唱时声调音高应向高频靠近外,更重要的是声调的“音长”要拉长,声音要饱满,同时音量也要加大。其中“掀”这个音节主要是拉长声调的“音长”;“盖头”这个词语主要是强调“盖”这个音节声调的“去声”发声特征,同时延长声调的“音长”并加大“音量”,音节“头”则在声调的发声上作“轻声”处理;“眉毛”、“眼睛”、“脸儿”这几个词语的的声调重音化主要体现在对词语第一个音节声调“阳平”的“上阳性”作着重强调,主要是延长声调的“音长”,第一个音节作“轻声”处理。不过,每一首歌声调变化的位置都不一样,为了简化软件操作,可以增加一个标记插件,在文本处理前进行简单的标记,就可以让后期的操作更加简单。
4.2 结合隐马尔可夫模型的歌声合成模型
软件原有的处理方法Music Technology Group(MTG)建立声音空间的过程非常復杂,而Vocaloid的语种涵盖较为广泛,为了更好更快的处理语言文本,合成出自然的歌声,我们可以结合隐马尔可夫模型,简化繁琐的语言模型。通过基于EpR(Excitation plus Resoiiances)声音模型统计文字的发音概率,建立隐性表现概率矩阵B,再统计字词之间的转换概率。就可以得到较为精确的歌声基频。比如:将乐谱中包含的基频信息引入到歌声基频的生成算法中,避免了因数据稀疏而造成的合成音高在时间和频谱结构上出现偏差的问题,可以合成出与乐谱相一致的具有精准音高的基频。
4.3 文本分析过程中增加歌词与音符匹配处理环节
Vocaloid的文本分析过程中最大的问题就是文本与曲谱没有建立有效的联系,导入歌词的过程也无音乐逻辑,现有的歌词录入法只是机械的将拼音一次性放入曲谱中,这种方法对于复杂的歌曲而言不具备可行性。因此,系统需要提前对歌词进行分析。在歌词录入的前期对文本进行语音的频谱、音节时长、语音特征等方面的分析,为歌词与曲谱的结合提供那个数据基础,再在最后面的合成过程中加入歌词与乐谱的匹配度分析,提高歌词与乐谱的粘合度。
4.4 基于二次创作的改进
Vocaloid的用户群主要以二次创作人群为主,即对已生成的歌曲进行再加工再创造。“真正让Vocaloid以及基于其制作的音乐广为传播的不是音乐本身,而是来自于基于这些音乐的二次扩展创作。”只有在处理好原有歌曲数据的前提下,才能为二次创作提供更好的基础。
从以上分析可知,用Vocaloid创作歌曲的主要问题集中在歌词输入和参数调节,其主要原因是音源库缺乏对歌词与音乐的匹配处理,以及拟人化参数处理。解决这两方面的问题可以从原有歌曲的分析处理方面入手。即增加原歌曲预处理步骤。在歌曲制作之前增加一个导入原有歌声的步骤,让系统对歌曲进行预处理,并获得相关参数以后,增加音频文件转midi和VSQ文件的处理,可以增大歌曲成曲的质量,二次创作也会更加容易。如果预处理后只留取相关参数,对原有运行空间的影响并不大。
参考文献:
[1] 剣持秀紀,大下隼人.VOCALOID-Commercial singing synthesizer based on sample concatenation[J].IPSJ SIG Technical Report,2008(2):P10-23.
[2] 李锦珑,杨鸿武,梁青青.歌词到歌曲转换系统的实现[J].计算机工程与应用,2010(16):124-126.
[3] 周树森.基于语料库的歌声合成方法[D].硕士.哈尔滨工业大学,2008.
[4] 李锦珑.基于参数修改的中文歌声合成算法的研究[D].硕士.西北师范大学,2011.
[5] 杨心祎.歌声合成技术与应用探究[D].硕士.南京:南京艺术学院,2015.
[6] 杨仕芳.歌唱语音形态研究——以汉语歌唱中的“声调”为例[D].硕士.重庆:西南大学,2013.