点击上方蓝色字关注我们~
为什么黄油女主角突然开始流行诗歌朗诵了?
绫地宁宁,但在赛博空间
绫地宁宁,姬松学园的超自然研究部部长,以“不由自主地发情”为代价签订魔女契约的表面三好学生,柚子社《魔女的夜宴》中的真·女主角,由于游戏的人气颇高和宁宁爆表的色气反差萌,她可能是中文黄油圈里知名度最高的角色之一。
说实话,我时不时就会在视频网站上看看有没有关于她的逆天二创——毕竟即便在黄油里,“自我发电”也不算一个特别常见的独特属性,而宁宁实在是将这一点发扬光大,过于密集的要素衍生出了一堆像“援桌骑士”“起爆器”和“0721”的涩涩梗和二创,这也让她总能吸引我的眼球。
但暂且略过这些不提,最近让她又重归大众视野的是一个名叫“绫地宁宁深情朗诵《琵琶行》”的二创视频。
尽管在这套朗诵可能谈不上深情,但宁宁的声优华哥(桐谷华,昵称华哥)字正腔圆地带着日本口音读着“嘈嘈切切错杂弹,大珠小珠落玉盘”看来还是相当生草,视频的浏览量也一度达到了近20万。
这种宁宁的诗歌朗诵迅速在b站流行开来,如果你不喜欢《琵琶行》,那么现在也可以欣赏到她读的《长恨歌》或是《爱莲说》了,在未来,她可能也得有读完《唐诗三百首》的一天。
不过这场新掀起的二创运动还并未止步于诗歌朗诵的范畴内,那些互联网上的陈年老梗也得到了新的活力,并纷纷从坟墓里爬了出来,配合华哥有点弱气的精彩配音,营造了一种甚至让人觉得有点可爱的反差萌。
但仔细一想,人们就会发现这些视频离谱的地方,为什么绫地宁宁——一款黄油里的女主角会朗诵这些内容?而且这些视频并非是类似鬼畜式的提取语音重新组合,宁宁的声优华哥似乎也从未开启过什么付费诵读指定内容的服务。
不过,答案倒也并不复杂。从某种程度上讲,它们确实是“华哥”读出来的,尽管这个“华哥”存在的地方似乎是......赛博空间。
探索之路
2021年韩国科学院发表的VITS语音合成系统,这是一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型。
其实我也看不懂
简单地说,只要能给VITS模型提供一定的语音文本量,它就能合成出模仿语音源的声音。而且它随机建模的特性能让自己在同一文本下合成出不同声调的语音,这让VITS能像真正的人一般说话。
B站UP主CjangCjenghC可能是最先试着合成绫地宁宁语音的人,在今年7月底,他就开始用谷歌的tacotron2语音合成模型开始训练“赛博宁宁”了。而选择黄油女主角也并非毫无理由,就像一些人在黄油里学日语一样,对于音源多,句子长度适中而且自带文本标注的Galgame来说,这无疑是绝佳的语音训练材料。
相比于其他的语音合成模型,VITS的特性能够更“智能”地避免出现一些杂音,而且还支持不同声线的处理,再加上Github上的开源代码,这让它的易用性与效果相当强大,这正也是CjangCjenghC转用这个模型的原因。
8月份,在经过一系列的训练之后,他已经做出了一个听起来相当还原的“赛博宁宁”模型,并在互联网上公开了相关的文件与教程。下载与应用这个模型相当简单,只要花上十分钟,几乎人人都能免费享受到这种高科技,而这也正是前段时间一堆“绫地宁宁诗歌朗诵”视频出现的真正原因。
不过在两个月的发酵之后,绫地宁宁已经不再是唯一的迫害对象了,热衷于此道的网友们很快整出了更多的好活儿,就比如有人用VITS合成了牧濑红莉牺语音,试着重现《命运石之门》里的Amadeus系统:
“钉宫病”的患者也纷纷表示看到了希望,VITS能够解锁钉宫式辱骂的各种姿势,这下想怎么被骂就怎么被骂了。
就连上课也能邀请你最爱的二次元老婆来讲解数学题了,仔细一想,它甚至兼具了那么一点实用性。
曾经与CjangCjenghC交流过VITS模型使用的另一名Up主Rcell则走上了一条更艰难的路,他试着合成并上传了一名Vtuber猫雷的声音模型,效果同样非常不错,这个月用“AI猫雷”做翻唱的视频已经在b站上累计了好几页。
连Vtuber猫雷本尊都不得不与AI一较高下,但就评论区的观众反馈而言,VITS的AI猫雷唱的《One Last Kiss》似乎比本尊强上不少,至少AI不会像本人一样出现经常跑调的问题......
不过,VITS倒也并非十全十美。想要训练出还算拟真的模型,需要不少的数据集,但几乎只有黄油这种文字小说能够提供完美的纯语音以及对应的文本,用其他体裁的角色训练VITS需要花上更大的功夫。比如“AI猫雷”的文本提取就不得不去通过切片来逐句裁剪,还得用软件将裁剪下来的句子背景音切除,要比直接从黄油中提取文本麻烦不少。
而且即便数据量足够,VITS输出语句的情绪起伏也比不上真人的水平,毕竟它总归只是一种“模仿”。但即便VITS目前还有着不少的缺点,它的效果也已经算得上非常不错了,有时甚至还能达到以假乱真的效果,让声音的正主都大吃一惊。
但就像我们都知道的那样,新技术的出现总会伴随着新问题。如果AI经过训练后能够模仿本尊的声音,那么它的用途还会仅限于整活......吗?
最后的问题
TTS(Text To Speech)语音合成系统 ,从十年前出道的洛天依,再到如今你在短视频平台上看到的一堆影视解说,背后无一不透露着它的影子。随着技术的发展,越来越多样且真实的合成语音也正在市面上不断推出,就比如微软在Microsoft Azure推出的TTS服务,只要花上几分钟,几乎人人都能用上这项新技术。
而作为其中的一个支流,VITS模型能够合成出模仿音源的音色并输出文本,但这几乎不可避免地带来了一些道德争议,而且它的效果越好,问题越大——如果说AI能很好地模仿人类的声源,那么谁知道这些声音会被拿来干什么呢?
“Deepfake”是一个新造词,它的直译是“深度伪造”,这个单词源于2017年的一名Rebbit用户把一些演艺明星的脸换到AV女演员身上的伪造事件。但随着语音合成技术的发展,就像“AI换脸”一样,“AI换声”也不再仅存于想象中。美国的一家语音检测公司Pindrop曾对此做过一些研究:他们发现针对公众人物的合成语音诈骗或许要比我们想象中的多得多,如果你是一名Youtuber或者公众人物,那么有人想要得到你的音源,然后用软件伪造出类似的声音并非难事。
近几年国内也出现过不少的警告之声,在过去,谁没接到过“猜猜我是谁”“我是你同学”之类的诈骗电话呢?掌控了语音合成技术的诈骗分子就像是完成了一次版本迭代,它的危害性可能远超我们的想象。更何况这些软件也并不只存在于实验室中,像MockingBird这种开源的的声音克隆工具已经受到了不少人的关注。
不过值得庆幸的是,目前市面上无论是哪个声音合成模型训练的成本都不低,没有大量优质的音源仍难以合成出足够“拟真”的语音。在网络上,不少人都在抱怨自己训练出的模型带有一堆杂音。尽管使用成本不高,但技术的不成熟仍令它尚未在电信诈骗界普及。
总而言之,尽管这项技术仍颇有争议,但在当下,不妨还是尽情享受科技带来的乐趣吧。毕竟,谁不愿意听自己喜欢的纸片人老婆说点那种......平时不会随便说出口的话呢?
点击关注,我们想和你聊聊电子游戏和这个世界
↓↓↓