孙燕姿可能都没想到,自己的“代表作”会加上一个《漠河舞厅》。
(资料图片仅供参考)
替孙燕姿唱歌的,是AI孙燕姿。最近,一批B站UP主用AI技术合成了孙燕姿版的《发如雪》《半岛铁盒》《红豆》,和其他港台歌手“梦幻联动”,还让孙燕姿唱起了更新的歌,《水星记》《漠河舞厅》等等,很多孙燕姿的粉丝都表示“绝对想不到孙燕姿会唱这种类型的歌。”
以假乱真,AI孙燕姿的唱功、音色均不在孙燕姿本人之下。这背后的技术原理也很简单,把孙燕姿的声音喂给AI,训练出特定的数据集,再给AI一首其他歌手例如周杰伦的歌让其推理演绎,AI孙燕姿就此诞生。
B站上也出现了AI周杰伦、AI林俊杰、AI邓紫棋,甚至还有AI郭德纲。还有人在打磨已故艺人的AI模型,让AI张国荣、AI邓丽君、AI阿桑重新开嗓。AI几乎完成了歌迷对华语乐坛的全部想象。
用AI训练声音,在行业内也不是稀奇事。A面,有人用AI做音乐小样,拿给歌手做范唱,大大提高效率,歌手陈珊妮也曾经发过自己的AI版音乐作品。B面,声乐的门槛被踏平,五音不全的人也能唱歌,不一定对抗得了职业歌手,但在社交平台小火一把也不是难事。
“有人在合成孙燕姿,代表着孙燕姿的音色被人喜爱,那孙燕姿就不会被取代。”娱乐恶搞之余,蝴蝶已经扇动翅膀,一场新的风暴正在酝酿。
在B站搜索“AI孙燕姿”,播放量最靠前的几首是《发如雪》《漠河舞厅》《下雨天》,其中《发如雪》的播放量已经超过120万。这三首歌的原唱分别是周杰伦、柳爽和南拳妈妈,跟孙燕姿本人的曲风、唱法完全不同,组合在一起却出奇地适配。
从歌迷的反应来看,同作为港台歌手,而且都在同一时代走红过,肯定有一定的相似性,能理解孙燕姿可以把周杰伦、南拳妈妈、王力宏等人的歌演绎好。意外的是,柳爽是一位民谣歌手,声线低沉,孙燕姿的曲风也跟民谣大相径庭,然而AI孙燕姿版的《漠河舞厅》,却诠释出了另一种风格。有歌迷表示,《漠河舞厅》更适合孙燕姿,是因为孙燕姿以平调见长,高音不是强项,所以让AI版的孙燕姿来唱这类歌曲会更接近本人。
不久前,孙燕姿在长沙参加音乐节,被粉丝问到此事,她只是笑着表示“我有听过这件事”。拥有AI分身的也不仅是孙燕姿,AI邓紫棋、AI林俊杰、AI陈奕迅,甚至AI郭德纲都有了自己的代表作《外婆的澎湖湾》,AI王心凌也能用甜嗓演绎《好汉歌》,评论区表示“有一种林黛玉倒拔垂杨柳的感觉”。
恶搞之外,网友也发现了这项技术的另一个应用场景。在AI张国荣演唱《好久不见》的作品评论区,有人感叹,“第一遍听的时候真的落泪了,如果哥哥还在该多好。”也有博主正在酝酿阿桑、姚贝娜、邓丽君等已故歌手的“新生命”,歌迷们的态度包容又温和,“谢谢你还php记得阿桑,能听到她的声音就很好了。”
一面是猎奇,一面是弥补缺憾,满足想象。在声音领域,AIGC依然擅长让想象力落地,外界对其的兴奋心情,一如看到AI创作出一幅画,写出一个优美段落一样。争议也是相似的,对于AI歌手到底是娱乐,还是正经事,正反双方一直在博弈。
惊叹之外,不乏有孙燕姿的老歌迷觉得AI的演唱“差点意思”。 在业内,孙燕姿是公认的天赋型歌手,音色独特,唱功唱法并不是她最大的优势。 一位歌迷表示,AI的模仿力几乎可以达到满分,但不能认真听,也不能整首听,因为越听会越觉得陌生,孙燕姿的一些换气习惯,咬字发音,还是存在瑕疵,“像是以前那种明星模仿秀唱出来的。 ”
也有人觉得,AI歌手,是对职业歌手的亵渎。因为目前AI难以处理声乐中的情感表达,当歌手在演绎歌曲,为之动容,留下的情感痕迹被抹掉,只剩下AI精炼的唱法,歌曲也失去了灵魂。
乐观派的想法是,拥抱变化本身是个好事。孙燕姿已经三年没有在内地演出,她也并不是喜欢高调活动的歌手,所以在一些歌迷眼中,让AI孙燕姿来唱她大概率不会公开演出的《漠河舞厅》,也是给孙燕姿本人带来关注度,这个红利不会落到AI头上。还有歌迷说,孙燕姿早期的唱腔更优越,用早期js作品训练AI,让其演绎别人的歌,可能比让现在的孙燕姿演绎,要更完美。
职业歌手里也有乐观派。今年3月,歌手陈珊妮发布新歌《教我如何做你的爱人》,一周后她表示这首歌的每一个音,每一个呼吸以及所有和声都是由自己的AI模型呈现的。腾讯音乐3月浪潮榜也为这首歌进行了评分,满分10分,演唱得分8.02,作词人李文贤评价其“以假乱真”。
李文贤同时也说,“当下依旧是音乐创作人教AI在演唱时如何呼吸、吐字,如何唱出人类独有的真实情感。”显然,断言AI孙燕姿能取代孙燕姿本人,依然太过理想化。至少目前的AI技术,还需要大量人为的模型训练,尤其在声乐一环,一首歌要解决呼吸、换气、音域、真假音处理等等问题,过程复杂,做到绝对的精度也有一定困难。更何况,网上能出现AI孙燕姿,前提是歌坛要有孙燕姿。
一位做AI孙燕姿翻唱的UP主告诉深燃,技术上没什么特别之处,“这块的门槛已经非常低了。”
实际上,上述AI声音合成的作品做法类似,技术开源,教程都随处可见。盛林早就实验过该技术,他向深燃解释了全部流程,“技术不难,在于步骤多,比较复杂。”
整个流程可以简单分为三步。一、建立数据集,训练AI;二、给出推理范例,也就是最后要模仿的作品;三、手动对齐音轨。
盛林表示,流程中用到的软件都可以在开源网站github找到。“首先需要收集数据,如果要训练AI孙燕姿,那就是把孙燕姿的歌全都下载一遍,然后用UVR5(人声伴奏分离器)处理一下,只留下干音,也就是人声清唱。”
干音部分,也要进行切分。盛林说,去掉伴奏之后,间奏的部分就是静音,所以要用GitHub上面切片的项目,来将孙燕姿每首歌的干音切成一句一句,大概每句3-4秒的音频。“要让AI充分理解孙燕姿的声音,起码要2000个这样的音频。”数据集建立好之后,要放在名为dataset_raw的文件里,“然后它会给出一个代码,把导入的数据集进行预处理,生成完预处理的文件之后,再生成配置文件。”以上,才是完成了训练前的准备工作。
正式的AI训练,需要一天左右,主要使用音声转换项目Sovits。盛林表示,他当时只训练了12小时,效果也不错,而且模型建立起来后一劳永逸,每次只要提供需要推理的文件,AI就能自行工作。假如想推理《发如雪》,也要先把这首歌的伴奏去掉,让训练好的孙燕姿模型覆盖掉周杰伦的原声,最后再用剪辑软件把原伴奏和AI孙燕姿的声音对齐。
即使对计算机一窍不通的外行,也能通过开源技术和网上的教程,创造出AI模型。打造AI孙燕姿并不难,只要有足够的时间,足够精细的数据,足够强的电脑。
谁都能做,但不一定都能做好。 陈珊妮也曾表示,在训练AI的过程中,她做了大量的案头工作。 网友训练AI歌手的过程也是一样,耗时最长,会产生最多变量的,就是在训练模型上。 有做AI翻唱的博主表示,声线不相似不能翻,高低音跨度大不能翻,发音习惯不一样不能翻,“生素材投喂前、加工后的处理都需要一定的Auditiojavascriptn知识,还有后期对模型的调参。 ”
选取的干音也有讲究。像孙燕姿这样的老歌手,每段时期的声音条件都不太一样,喂给AI什么时期的歌,AI就会建立什么样的模型,所以对于最后推理歌曲的演绎也不尽相同。
发布AI孙燕姿作品的UP主向南告诉深燃,在他推理的几个作品里,最像的是《世界末日》。“这首歌本来就和孙燕姿的风格接近,高音不多,比较平,我感觉现在Sovits对于高音的处理不太好,也有可能是孙燕姿本来就没唱过太多高音。”
技术上,向南觉得还有很多提升空间。“如果原音频不够清晰,最后生成的作品会有很多卡顿和电音。”这也就解释了为什么AI郭德纲唱的歌听起来像是卡碟,因为只有职业歌手才能有无损CD版音源,但凡有一点杂音,都会影响最后效果。
向南是孙燕姿的歌迷,在他看来,AI并没有模仿到孙燕姿的精髓,“就是音色比较像。”本质上,这项技术就是人声覆盖,声音是孙燕姿的,咬字发音也基本形似,但唱歌时的换气、呼吸、停顿这些都是原歌手的。
接触过该项技术的网友都表示,想让孙燕姿唱周杰伦的歌,只需要导入孙燕姿的歌python声就行,至于孙燕姿平时讲话的习惯,英文发音等更为细节的东西,不需要提供。样本单一有限,AI在学习时,也很难把握到全部。
要想做到更精确,必须要大量采集歌手唱过的各种歌曲,比如高音的头声、胸声、强弱混,让AI分析歌手在各个音区的唱法、共鸣习惯等等。做到八成像很简单,做到一模一样很难。
AIGC的版权归属一直是老问题。以AI生成图像为例,AIGC使用的大模型训练数据可能是版权作品,AIGC生成后归谁所用,如何商业化,“拼凑”出的新作品版权归属于谁也是难题。
音频领域的版权问题依然存在。北京金诚同达律师事务所米新磊律师告诉深燃,用AI模型演绎歌曲,涉及两个权利,“一是音乐作品的著作权,这又涉及词、曲、唱、录四方的权利,包括词曲作者的著作权,和表演者的表演者权,还有录制音乐作品的制作者的权利。二是人格权,自然人对自己的声音享有人格性质的权利,直接参照肖像权保护。”
米新磊表示,AI声音合成的诸多情形都涉及侵权。“AI孙燕姿唱周杰伦的歌,侵犯孙燕姿的声音权,同时侵犯周杰伦对应的音乐作品的版权。如果用AI孙燕姿唱自己写的歌,那就是侵犯孙燕姿的声音权,如果用自己的声音训练AI去唱周杰伦的歌,那也会侵犯音乐作品的著作权。”他补充,没有商业化,不代表不侵权,毕竟没有经过许可使用,就看对方追究与否了。“跟此前影视剪辑二创视频差不多,即使没有牟利,但实际上博主也获得了流量,获得了注意力。”
归根结底,AI孙燕姿、AI邓丽君、AI郭德纲都是在版权问题周围游走的娱乐产物而已。回归这门技术本身,它产生的“蝴蝶效应”绝不简单。
看到无所不能的AI孙燕姿,业内人士和歌迷都想问同一个问题:职业歌手要被取代了吗?
从这项技术本身的原理来看,职业歌手受粉丝基础、市场、版权的保护,很难因为出现了一个克隆的自己,就面临职业危机。再拿AI孙燕姿来说,流传的AI作品,反倒能让更多人认识到孙燕姿音色的独特性。
真正恐慌的,是在社交平台靠翻唱谋生的小博主们,以及不具备词曲创作能力的小歌手。此前一位B站UP主就曾惊叹,用他自己的声音训练AI,唱了一首日语歌,居然都可以以假乱真,网友不禁打趣道“翻唱区的天可能要塌了。”一位自称五音不全的网友也说,自己试了市面上一款软件之后,“竟然沉浸在自己的歌声中。”他解释,该软件类似唱吧,就是通过用户上传的演唱作品训练AI模型,让用户什么都能唱。
一些人的焦虑是场风暴,一些人的机会也是风暴。
音乐行业从业者Kevin告诉深燃,现在行业内已经有公司在用AI生成demo(小样)了,主要用于范唱或简单的作品示例,不涉及商业用途。Kevin说,以前范唱用的是midi,只能给个节奏,歌手没有参考,练唱时间比较长。现在,制作人把曲子写好,让AI唱一遍,歌手听一遍就能了解到基本的起承转合、情绪重点,效率比较高。
声乐的门槛逐渐被踏平,创作人反倒更值钱了。AI很难对抗人类创意,而创意掌握在优秀的词曲创作人手中,即便作品卖不出去,也可以训练自己的AI模型将想法落地。
更大的想象空间在于生成,而非模仿。同样是AIGC,目前市场上的AI生成图像追求的是独特性,AI生成音频则追求的是“更像原声”。行业人士认为,AIGC此前已经广泛应用于虚拟偶像领域,多种声音采样合成,比起以往虚拟偶像和固定的“中之人”的捆绑,要更灵活和安全。
易观分析《AIGC产业研究报告2023——音频生成篇》中也提到,下阶段定制化语音的需求将明显增长,例如个人定制语音可以应用在早教、手机助手等场景,B端应用则体现在客服、营销、数字人等场景中,越来越多的企业将会希望为语音设备、数字人打造符合品牌形象的个性化语音。
“如果AI的时代必将到来,身为创作人该在意的或许不是‘我们是否会被取代’,而是‘我们还可以做些什么’。”陈珊妮在微博留下了自己的观点。
面对AI浪潮,有实际动作的职业歌手不止陈珊妮一个。周杰伦曾表达过自己对AI的态度,“AI虽然能做很多事,但是取代不了我对音乐创作的美感。”5月初,周杰伦和中国移动达成元宇宙领域系列合作,发布超写实数智人“周同学”,元宇宙演唱会也是合作内容之一。
摆在职业歌手面前的不是职业危机,而是更多职业机会。AI可以替代歌手发布更多作品,开拓更多营业场景,经纪公司也能通过AI开发艺人身上更多的IP价值,打造数字形象、AI演唱会等等。模仿唱腔,只是AI为演艺市场做的最微不足道的一件事。
*应受访者要求,文中盛林、向南、Kevin为化名。