论文部分内容阅读
你的声音是什么样的呢?甜甜的,沙哑的,尖细的,还是低沉的?
你能靠声音分辨说话的人是谁吗?家人,同学,还是老师?
你有没有这样的经历:没有看见某个人的脸,只靠声音就认出了他?
比如《红楼梦》里王熙凤的出场是“未见其人先闻其声”,贾府里的姐姐妹妹们只听一句话,便知道是她了。
归有光在《项脊轩志》中也提到“余扃牖而居,久之,能以足音辨人。”这样厉害的听觉,是烂熟于心的结果吧。
你在放学时分,校门口吵吵嚷嚷,也仍然能准确地听到家人的声音。
你能“听声辨人”,是因为每个人的声音都有特别之处。如果声音被“偷了”,就相当于声音的特点被偷了,大家只认声音就会产生误会呢!
不过,人与人之间相互“偷”声音已经司空见惯,比如很多人会模仿明星的声音说话、唱歌。那机器能“偷”人声吗?而且要“偷”得像真人一样,而不是带着机器味道的声音!
加拿大的Adobe公司在2016年的MAX大会上展示的语音编辑工具Project VoCo做到了!和目前市场上的语音编辑工具不同,除了可以实现一些基础的剪辑拼接、消除噪音之外,它还能用机器合成新的语音,生成新词,堪称“声音版的Photoshop”。
只需要给VoCo一段20分钟的人声,它就能分析出人声中的特征,然后用户只需要打字输入内容,它就能根据这段人声中的特征进行还原。
简单地说,VoCo就是可以在理解和分析某个人的声音之后,用同样的声音说出其他不同的内容。VoCo能够生成原本这个声音没有的内容,就像一个“声音神偷”!
既然声音是有特征的,那么只要拥有了这些特征,就能“偷”到别人的声音。VoCo这么厉害,就是准确地“偷”了声音的特征并且能够任意还原。
那么声音的特征是什么呢?
要想知道声音的特征,得先知道声音是怎样发出的。我们的声带震动,然后发出了声音。说话的时候把手放在脖子上,就可以感受到声带的震动。就像鼓一样,鼓面震动了,才能发出鼓声。
这种震动就像石子丢进湖里,湖面会荡漾出一圈圈的涟漪,这个涟漪也叫“波纹”。声带震动出的“波”也在空气中一波又一波地传出,只是这样的“波”我们看不到,叫“声波”。
我们细细回想声音的特征,有大有小,有高有低,还有动听或难听。这些感受,就是声音的特征啊:声音的大小是响度,声音的高低是音调,声音的波形是音色。人们就是根据这三个特征来区分声音。
声音看不见、摸不着,但利用仪器可以绘制出反应声音特征的声波图。如果声波起伏很大,那么声音就大;声波很密集,声音就很高;声波形状有规律,就是好听的乐音,杂乱无章就是噪音。
知道了声音的秘密,VoCo通过20分钟的语音,分析并还原出聲音的响度、音调和音色,达到了模仿修改人声“以假乱真”的程度。
能够模仿人声的VoCo确实很神奇,但是仔细一想,也有让大家担忧的地方:如果有人利用VoCo模仿人声做坏事,比如模仿出爸爸妈妈的声音骗取小朋友的信任,那就有危险了。
目前VoCo还在研发阶段,没有面世。大约技术人员考虑到安全和信任的问题后,大家和VoCo见面的那一天,“偷”声音的危机已经解决,所有人都能愉快地享受新科技带来的新境界!
你能靠声音分辨说话的人是谁吗?家人,同学,还是老师?
你有没有这样的经历:没有看见某个人的脸,只靠声音就认出了他?
比如《红楼梦》里王熙凤的出场是“未见其人先闻其声”,贾府里的姐姐妹妹们只听一句话,便知道是她了。
归有光在《项脊轩志》中也提到“余扃牖而居,久之,能以足音辨人。”这样厉害的听觉,是烂熟于心的结果吧。
你在放学时分,校门口吵吵嚷嚷,也仍然能准确地听到家人的声音。
你能“听声辨人”,是因为每个人的声音都有特别之处。如果声音被“偷了”,就相当于声音的特点被偷了,大家只认声音就会产生误会呢!
不过,人与人之间相互“偷”声音已经司空见惯,比如很多人会模仿明星的声音说话、唱歌。那机器能“偷”人声吗?而且要“偷”得像真人一样,而不是带着机器味道的声音!
加拿大的Adobe公司在2016年的MAX大会上展示的语音编辑工具Project VoCo做到了!和目前市场上的语音编辑工具不同,除了可以实现一些基础的剪辑拼接、消除噪音之外,它还能用机器合成新的语音,生成新词,堪称“声音版的Photoshop”。
只需要给VoCo一段20分钟的人声,它就能分析出人声中的特征,然后用户只需要打字输入内容,它就能根据这段人声中的特征进行还原。
简单地说,VoCo就是可以在理解和分析某个人的声音之后,用同样的声音说出其他不同的内容。VoCo能够生成原本这个声音没有的内容,就像一个“声音神偷”!
既然声音是有特征的,那么只要拥有了这些特征,就能“偷”到别人的声音。VoCo这么厉害,就是准确地“偷”了声音的特征并且能够任意还原。
那么声音的特征是什么呢?
要想知道声音的特征,得先知道声音是怎样发出的。我们的声带震动,然后发出了声音。说话的时候把手放在脖子上,就可以感受到声带的震动。就像鼓一样,鼓面震动了,才能发出鼓声。
这种震动就像石子丢进湖里,湖面会荡漾出一圈圈的涟漪,这个涟漪也叫“波纹”。声带震动出的“波”也在空气中一波又一波地传出,只是这样的“波”我们看不到,叫“声波”。
我们细细回想声音的特征,有大有小,有高有低,还有动听或难听。这些感受,就是声音的特征啊:声音的大小是响度,声音的高低是音调,声音的波形是音色。人们就是根据这三个特征来区分声音。
声音看不见、摸不着,但利用仪器可以绘制出反应声音特征的声波图。如果声波起伏很大,那么声音就大;声波很密集,声音就很高;声波形状有规律,就是好听的乐音,杂乱无章就是噪音。
知道了声音的秘密,VoCo通过20分钟的语音,分析并还原出聲音的响度、音调和音色,达到了模仿修改人声“以假乱真”的程度。
能够模仿人声的VoCo确实很神奇,但是仔细一想,也有让大家担忧的地方:如果有人利用VoCo模仿人声做坏事,比如模仿出爸爸妈妈的声音骗取小朋友的信任,那就有危险了。
目前VoCo还在研发阶段,没有面世。大约技术人员考虑到安全和信任的问题后,大家和VoCo见面的那一天,“偷”声音的危机已经解决,所有人都能愉快地享受新科技带来的新境界!