VOCALOID3的歌声合成技术应用研究

来源 :小说月刊 | 被引量 : 0次 | 上传用户：datangkang123

【摘要】

：

【作者】

：

黄巧斌

【出处】

：

小说月刊

【发表日期】

：

2017年12期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文主要分析了Vocaloid3歌声合成的原理，并探讨了这款软件操作和效果方面的不足，最后重点提出了与算法和文本处理等有关的四点建议。
　　关键词：Vocaloid3；歌声合成；算法；文本处理
　　歌声合成技术是指通过语音合成技术相关技术让计算机合成出模拟人声的歌声。优点在于便于创作和修改，能获得较为完美的歌声。这是一个非常有前景的方向。比如，相应的虚拟歌手可以创造巨大收益，它们与真实歌手无异，也可以出唱片、开演唱会。目前最有名的是初音未来，她是基于Vocaloid软件作为音源的虚拟歌手，每天都有成千上万的粉丝为其创作。此外，歌声合成也突破了人类生理限制，音域广、歌唱速度的可调节性也是它独特的优势之一。因此，这方面的研究非常有价值。
　　1 研究现状
　　目前，学界关于研究歌声合成的研究处于起步阶段，主要集中在原理研究阶段。比如Vocaloid的开发者剑持秀纪先生在《Vocaloid-Commercial singing synthesizer based on sample concatenation》一文中剑持秀纪谈及了Vocaloid的开发，生存现状，插件的兼容性以及和其他合成技术的对比。杨心祎的《歌声合成技术与应用研究》（2015）结合Vocaloid3分别对歌声合成技术在音乐创作中的应用及其技术原理的研究。周树森的《基于语料库的歌声合成方法》（2008）、李锦珑在《基于参数修改的中文歌声合成算法的研究》（2011）等讨论了歌声合成技术的算法，主要包括波形拼接和统计模型方法等。李锦珑，杨鸿武，梁青青，裴东，刘慧娟先生的《歌词到歌曲转换系统的实现》（2010），此文重点研究了如何以旋律控制模型结合语音合成技术，实现从中文歌词到歌曲的合成。
　　综上，目前歌声合成技术的研究一定程度上都局限于理论探讨，很少有从实际操作中对操作者的体验进行总结的研究。因此，本文基于VOCALOID3原理与实际操作中的问题提出相应建议。
　　2 Vocaloid3歌声合成原理
　　本文选取的研究对象为Yamaha开发的电子音乐制作语音合成软件VOCALOID3。VOCALOID的原型由剑持秀纪（Kenmochi Hideki）率领西班牙大学的研究小组开发。主要通过音调和歌词的输入，目的是将两者整合输出为合成为原为人类声音的歌声。2004年1月15日发布第一版，目前最新版本是VOCALOID4，但是由于汉化版难以获取，而且这几个新功能与本研究关系不是很大，所以，本文选择了VOCALOID3作为研究对象。
　　2.1 歌声合成器
　　Vocaloid3主要基于西班牙庞培法布拉大学的Music Technology Group（MTG）在歌声合成方面的研究成果，他们提出了基于表演采样的歌声合成方法。这一方法并不直接对歌声波形进行拼接，而是基于源一滤波器模型提出了EpR（Excitation plus Resoiiances）声音模型，使用该模型对歌声进行参数化。
　　合成歌声时，分为两步，第一步为根据输入乐谱生成表演轨迹，表演轨迹包含了声音空间中所有的值，第二步为根据表演轨迹进行搜索匹配和修改转换。
　　2.2 音源库原理
　　音源库（Singer Library）作为系统架构的重要组成部分，任何通过Vocaloid许可的音源库或数据库中的声音片段都采样自真实的人声素材。该音源数据库必须包含相对应目标语言中所有音素以及所有可能的因素组合，包括双连音（又称双音素，为相连的两个不同的音素的组合）和长元音（sustained vowels，即持续时间相对较长的元音）；必要时，还需要包括成分超过两个音素的多音组合（polyphones，大于或等于三个音素的组合）。
　　Vocaloid系统的原理是通过改变这些采样素材片段的音高，从而使它们能符合旋律的走向。为了获得更自然的声音，即缩短原始素材与目标的音高差，每个片段需要在音源库中储存三个到四个不同的音高范围的素材。而且准确度不一定高。例如，由于日文本身的特点就是音素的含量较少，这就造成把双音素记录到英语音源库的难度比日语音源库要大得多。虽然早前日本版本的Vocaloid发行商声称可以唱出英文，但从理论性和技术性的角度来说这是较难实现的，因此，日版音源库调试英语歌曲时，使用的都是和式英语发音，还原度并不高。
　　波形拼接这一原理产生的歌声质量较高，但这一方法建立声音空间的过程非常复杂，需要完全人工介入，工作量庞大，每种语言也需要重新建立大量规则。导致Vocaloid软件的实际操作也非常繁琐，要想得到理想的音频，后期需要大量的人工的参数调节。另一方面由于需要存储的参数非常多，占存储空间也比较大。
　　3 操作过程的不足
　　3.1 处理过程繁琐
　　Vocaloid3虽然是目前市场普及最广的歌声合成软件，能够合成较为理想的音频文件，但是实际操作过程非常繁琐。而且自身的功能也不是特别完善，比如不能直接进行歌词的一次性输入。
　　歌曲的部分剪辑也存在问题，如果midi文件中存在很多空白段，并不能進行快速的删减，如果要在Vocaloid3中进行编辑，只能选择将后面的音段前移，选择过程也只能进行部分选择，操作过于繁琐，所以，在歌曲编辑完以后用别的音频软件进行空白音段的剪辑反而更方便。
　　3.2 汉语拼音与国际音标之间的转换存在缺陷
　　实际调试的过程中，虽然可以进行拼音的拆分，但是由于很多汉语音节并不能直接用合适的国际音标表示，国际音标的匹配过程也较为复杂。
　　3.3 调试功能不够完善
　　此外，它自身功能不能满足歌曲的调试，网络上有很多调试爱好者制作了很多插件，以满足调试需求。将所选区域音符延长至相连的Connect Notes连接音符、起到低声说话效果的Whisper、EG DYN动态控制、ZigZagDYN动态控制、Insert Rest缩距插入、Timing Randomize随机、Adjust Gain DYN增益、Vibrato Type Conversion颤音类型转换等。但是，安装和处理这些插件也是一件比较繁琐的事情。最好的方法是在进行软件升级的过程中择优整合一些比较好的插件，完善软件自身功能。　　3.4 字过于正
　　语音合成的音乐中，所有的字都唱得非常清晰，缺少字句之间的自然衔接，导致整首歌有一种咬字过重的感觉。这一点也导致给字句之间自然过渡的听觉时间减少了，导致歌曲的流畅度大打折扣，这一点单靠调试很难解决。
　　4 建议
　　4.1 加入汉语声调调节的操作
　　该软件并没有将汉语的声调纳入处理过程。汉语声调作为区别意义的重要部分，并没有在歌曲处理中得到体现。虽然对于歌词意义的表达无太大影响，但是影响了歌曲意境、情感，以及流畅度的表达。
　　杨仕芳在《歌唱语音形态研究——以汉语歌唱中的“声调”为例》中提出由于声调它是属于相对音高，而音乐旋律它是属于绝对音高，在歌唱中即要注重旋律的绝对音高，又要把握好声调的相对音高，还要关注音节之间声调音高的对比特性，只有三者配合融洽才能根据音乐的旋律形态准确地具有不同调值音高的音节，使音节之间达到自然地连接。中国传统声乐演唱中的“以字行腔”的手法，在一定程度上就是要根据语音的声调来进行即兴的旋律装饰和润腔，从而形成风格独特的歌唱语音形态。
　　汉语属于单音节语，即一字一音，因而声调的音高存在使具有很强的表意功能，也容易产生抑扬顿挫的美感效果。如果将这一因素考虑至歌声合成当中，便可以让歌声的过渡得更加自然。这里的声调并不局限于传统的调值，而是一个相对值。针对前面所说的“字过于正”，我们可以将声调考虑其中，让声调随着音高变化，有利于缓和歌曲的生硬感。
　　比如维吾尔族民歌《掀起你的盖头来》中，语音重音应着重强调“掀”的动作、掀的对象“盖头”，还有掀后所看到的形象一“眉毛”、“眼睛”、“脸儿”。这些词语和音节在演唱时声调音高应向高频靠近外，更重要的是声调的“音长”要拉长，声音要饱满，同时音量也要加大。其中“掀”这个音节主要是拉长声调的“音长”；“盖头”这个词语主要是强调“盖”这个音节声调的“去声”发声特征，同时延长声调的“音长”并加大“音量”，音节“头”则在声调的发声上作“轻声”处理；“眉毛”、“眼睛”、“脸儿”这几个词语的的声调重音化主要体现在对词语第一个音节声调“阳平”的“上阳性”作着重强调，主要是延长声调的“音长”，第一个音节作“轻声”处理。不过，每一首歌声调变化的位置都不一样，为了简化软件操作，可以增加一个标记插件，在文本处理前进行简单的标记，就可以让后期的操作更加简单。
　　4.2 结合隐马尔可夫模型的歌声合成模型
　　软件原有的处理方法Music Technology Group（MTG）建立声音空间的过程非常復杂，而Vocaloid的语种涵盖较为广泛，为了更好更快的处理语言文本，合成出自然的歌声，我们可以结合隐马尔可夫模型，简化繁琐的语言模型。通过基于EpR（Excitation plus Resoiiances）声音模型统计文字的发音概率，建立隐性表现概率矩阵B，再统计字词之间的转换概率。就可以得到较为精确的歌声基频。比如：将乐谱中包含的基频信息引入到歌声基频的生成算法中，避免了因数据稀疏而造成的合成音高在时间和频谱结构上出现偏差的问题，可以合成出与乐谱相一致的具有精准音高的基频。
　　4.3 文本分析过程中增加歌词与音符匹配处理环节
　　Vocaloid的文本分析过程中最大的问题就是文本与曲谱没有建立有效的联系，导入歌词的过程也无音乐逻辑，现有的歌词录入法只是机械的将拼音一次性放入曲谱中，这种方法对于复杂的歌曲而言不具备可行性。因此，系统需要提前对歌词进行分析。在歌词录入的前期对文本进行语音的频谱、音节时长、语音特征等方面的分析，为歌词与曲谱的结合提供那个数据基础，再在最后面的合成过程中加入歌词与乐谱的匹配度分析，提高歌词与乐谱的粘合度。
　　4.4 基于二次创作的改进
　　Vocaloid的用户群主要以二次创作人群为主，即对已生成的歌曲进行再加工再创造。“真正让Vocaloid以及基于其制作的音乐广为传播的不是音乐本身，而是来自于基于这些音乐的二次扩展创作。”只有在处理好原有歌曲数据的前提下，才能为二次创作提供更好的基础。
　　从以上分析可知，用Vocaloid创作歌曲的主要问题集中在歌词输入和参数调节，其主要原因是音源库缺乏对歌词与音乐的匹配处理，以及拟人化参数处理。解决这两方面的问题可以从原有歌曲的分析处理方面入手。即增加原歌曲预处理步骤。在歌曲制作之前增加一个导入原有歌声的步骤，让系统对歌曲进行预处理，并获得相关参数以后，增加音频文件转midi和VSQ文件的处理，可以增大歌曲成曲的质量，二次创作也会更加容易。如果预处理后只留取相关参数，对原有运行空间的影响并不大。
　　参考文献：
　　[1] 剣持秀紀，大下隼人.VOCALOID-Commercial singing synthesizer based on sample concatenation[J].IPSJ SIG Technical Report，2008（2）：P10-23.
　　[2] 李锦珑，杨鸿武，梁青青.歌词到歌曲转换系统的实现[J].计算机工程与应用，2010（16）：124-126.
　　[3] 周树森.基于语料库的歌声合成方法[D].硕士.哈尔滨工业大学，2008.
　　[4] 李锦珑.基于参数修改的中文歌声合成算法的研究[D].硕士.西北师范大学，2011.
　　[5] 杨心祎.歌声合成技术与应用探究[D].硕士.南京：南京艺术学院，2015.
　　[6] 杨仕芳.歌唱语音形态研究——以汉语歌唱中的“声调”为例[D].硕士.重庆：西南大学，2013.

其他文献

视觉文化下的“美术”与图像识读

摘要：视觉信息时代的快速发展无疑对人们的生活带来了诸多便利，应运而生的图像文化挑起了人们对世界的重新认知，而美术核心素养提倡的五大素养中首屈一指的培养图像识读能力不仅要求学生学会分析作品的表面含义，同时也是帮助学生解读艺术家背后的情感表达，进而借助美术形式语言表达自己的思想情感。　　关键词：视觉文化；核心素养；图像识读　　语言固然能给人们直观的信息，但是在视觉艺术面前卻总是少了些许情感成分，比如

期刊

艺术美学之生活美学

摘要：做学问需要往一般、普遍性上研究，但应用到实际生活中却需要具体的方法和指导，美学在大学、研究所等是一种书本知识，是一门学问，怎么样能在实际生活中日益转化为生存的体验和精神的探索；在日常生活中，美学不单单是抽象的原理和范畴，而是提高生存质量的策略；美学不单单是美学，而是成为了人生智慧和高尚人格。其实在日常生活中时时刻刻都会遇到问题和困境，闲暇之余，苦苦思索着既能解决问题又能美美的生活之道。学习

期刊

社会空间下的北宋绘画研究

摘要：融合儒道禅思想的中华传统文化影响了中国审美意识形态的演进。中国传统的绘画艺术作为彰显民族精神文化的表现形式而备受关注。纵观中国绘画艺术的发展历程，北宋时期的艺术创作及理论研究有着承上启下的重要作用。这个时期经济的增长、文化的繁荣等诸多因素共同促进了艺术形式的多样化发展趋向。其中，以翰林画院为主的院画群体在继承中国传统绘画精神的基础上，追求写实技法的完善和诗画一体的审美意趣，体现了北宋画家在

期刊

浅谈摄影创作中光影的运用

摘要：光与影在摄影中的地位几乎是支柱与灵魂，摄影的效果与质量在很大程度上取决于光影的运用效果。摄影者在摄影过程中可以利用影和光的优势变换拍摄出令人赏心悦目的画面，可以通过光和影的调配，通过画面的定格表达，传递出自己的真实感受与思考。本文主要是对光和影在摄影艺术中的运用进行解读、分析以及研究，是我们对光和影有更加深层的认识，以及更好的在摄影过程中运用光影。　　关键词：光与影；摄影创作；画面；运用　

期刊

油菜花中的墓碑

摘要：四月天，老李家的油菜田满是黄灿灿的景象，不论是赶着去田里的邻居，还是公路上忙着开车去城镇的路人都不禁停下来，然而远望的那些人不知道，那丛中还立着一块墓碑。农村把过世长辈的坟选在自家田里并不是多么稀罕的事。《油菜花》遍地黄花遍地金，周身是宝为人民。无需巧植花园里，广阔田野更舒心。　　关键词：油菜；墓碑；思念　　油菜田满是黄灿灿的景象种田好手帮爷爷把那些琐事油菜花又开了　　四月天，老李家

期刊

杭哈民歌研究

摘要：杭哈民歌是内蒙古杭哈地区的蒙古族人民所创作的歌曲，它历史悠久，有着丰富而古老的音乐传统文化；同时它富有活力，伴随着杭哈地区蒙古族人民生活的变化而加入新鲜的元素，由此形成了杭哈民歌与众不同的音乐特色和音乐价值。作为自治区级非物质文化遗产，杭哈民歌在现代文明的不断冲击下面临着传承、发展的困境，为了更好的保护杭哈民歌，保护具有民族特色的口传文化，本文深入研究了杭哈地区与杭哈民歌的发展历史；杭哈民

期刊

美丽的油菜花

摘要：四月天，老李家的油菜田满是黄灿灿的景象，不论是赶着去田里的邻居，还是公路上忙着开车去城镇的路人都不禁停下来，然而远望的那些人不知道，那丛中还立着一块墓碑。农村把过世长辈的坟选在自家田里并不是多么稀罕的事。《油菜花》遍地黄花遍地金，周身是宝为人民。无需巧植花园里，广阔田野更舒心。　　关键词：油菜花海；油菜花；淳朴　　我的家乡有一条长河，而这条长河上只有一座大桥。桥的那头是几棵枫树围成的屏风。

期刊

侯孝贤电影研究述评

摘要：侯孝贤从事电影创作至今将近四十年，导演长故事片17部，短片3部，纪录片1部。国内外对其电影技法和美学研究不断，但对其研究的综述文章却比较罕见。本文从1984《风柜来的人》起，对侯孝贤电影研究成果做一个简要的梳理，希望能给后来研究者提供研究便利。　　关键词：侯孝贤；研究综述　　侯孝贤是台湾电影的标杆，也是一位世界级的电影大师。对他电影的关注与研究始于1984年《风柜来的人》，三十年来未曾断绝

期刊

城市广场设计的社会含义

摘要：城市是人类文明集中化发展的发达产物，它与人类生存行为休戚相关。但是，随着人类社会活动的增加和对世界改造方式的演变，如，人口与城市恶性膨胀、城市空间匮乏等弊病，人们开始重新审视城市设计。最为突出的方面就是城市广场设计。一方面，城市广场满足了人类感官的享受，尤其对于沉沦在社会生活活动中的人群来说，多样化的景观可以给予人们最原始的视觉享受。另一方面，城市广场为人们提供了享受自然和社会活动的聚集场

期刊

贾科梅蒂

摘要：贾科梅蒂的风格主要还是在雕塑中体现。他是戰后欧洲最伟大亦最富于表现力的雕塑家、油画家，32岁后，雕塑及绘画作品均以表现人物为主，有着存在主义倾向，反映了第二次世界大战之后，普遍存在于人们心理上的恐惧与孤独。　　关键词：贾科梅蒂；超现实主义；存在主义；孤独；真实　　贾科梅蒂（Giacometti·Alberto，1901～1966），瑞士超现实以及存在主义雕塑家，油画家。绘画主题以传统人物肖

期刊

VOCALOID3的歌声合成技术应用研究

与本文相关的学术论文