AI在舞台上配音时为什么也会唱“黑脸”?

在文字出现之前,声音曾经是人类唯一的交流工具。由于声音的传播距离非常有限,所以,那个时候人类的生存以“部落”为单位,人们之间的关系十分紧密。后来随着传播媒介的一步步发展,人们不再需要彼此近距离交流就能获得大量信息,于是人们开始怀念单一的声音带给我们的感觉,声音这种最原始的媒介承载着人类最充沛的情感。

下载

2018年1月,世界首部利用AI模拟人声的纪录片在央视播出,这部名为《创新中国》的纪录片的解说词是由在2013年就“已逝”的声音完成的。原来在这个奇迹的背后是科大讯飞利用语音合成技术模拟出了我国已故著名配音演员、语言艺术家李易的声音。

科大讯飞强劲的语音合成技术让AI模拟的声音成功打动了李易老师的学生、朋友和家人。在AI自然流畅的语言解说中,人们似乎还能再见到故人的音容笑貌。那么科大讯飞这项语音合成技术究竟有什么神奇之处?它的操作过程又是怎样的?

这项看似很高级的技术理解起来并不复杂。

首先是输入文本,让机器模拟人对自然语言的理解过程。再对文本进行语言处理,主要包括文本规整、词语切分、语法语义分析,然后给出后续步骤所需要的发音提示。

其次是规划音段特征,如音调、音长、音重等,让机器可以对语言的特有韵律进行处理,使机器模拟的声音更自然,并且使其更准确地传达实际语义。

最后根据前两部分处理的结果进行语音合成即可。通过这几个步骤,AI模拟的声音与人声已经非常相似,在某些情况下,我们也很难分辨机器人的声音与人的声音。

AI配音的边界可以延伸到哪里

这么惊艳的AI配音技术,它的边界究竟能够延伸到哪里?我们就此提出了AI配音的两个用武之地。

1. “粉丝经济”向AI配音伸出“橄榄枝”

“粉丝经济”已经成为现在文娱产业经济增长的主要支柱之一。随着2018年养成类偶像节目的火爆,粉丝对明星投入的情感越来越多,这个群体为明星付费的意愿同样水涨船高。既然明星的周边如此火爆,何不运用配合AI语音合成的VR、AR技术来打造虚拟“明星们”,让他们更真实地出现在粉丝的日常生活中呢?要深挖中国的粉丝潜力,如腾讯视频在《明日之子》上打造虚拟二次元偶像“荷兹”,粉丝听着现实中熟悉的偶像叫自己起床,还能让他陪自己聊天,虚拟真人版偶像或许更能得到粉丝的认可。

2. AI配音是音也是“药”

据国外媒体报道,有研究表明,年迈的夫妇可能因为一方丧偶而增大死亡率,这种现象被称为“心碎综合征”。这项研究由哈佛大学和威斯康星大学麦迪逊分校的两位科学家负责,研究结果显示,男性丧妻后“全因死亡率”的概率增加了18%,女性丧夫后“全死因死亡率”的概率增加了16%。我们还可以做一个合理推断,在丧子或丧双亲的情况下,这种“心碎综合征”的表现也会存在。心理学家表示,要想修复这种创伤是非常困难的。但是AI或许可以做到,它能够利用过去已有的音频合成亲人的声音。如果心理医生说的话能够用亲人的声音来传达,那么也许可以帮助患者更快地走出阴霾。

AI在舞台上配音时是如何唱“黑脸”的

AI配音在解决问题的同时也会引发新的问题,如果把握不好,那么AI在技术的大舞台上就会成为唱“黑脸”的角色。导致AI在配音时唱“黑脸”的原因又有哪些?下面就为读者们一一列举。

1. AI盗用声音却被“无罪释放”

手机里的高德地图我们比较熟悉,但大家可能不知道它所使用的林志玲的声音其实部分是由AI配音技术后期合成的。而这样的语音合成过程是否必须要求声音拥有者本人提前去技术公司录制呢?

语音合成对音频质量并没有那么高的要求,利用海量的互联网音频也可以实现人声模仿。谷歌软件工程师在发表的论文Looking to Listen at the Cocktail Party中提出,采用全新视听模型可以在不同噪声中把重叠的人声分离出来,形成每一位说话者单独、纯净的音频信号。同时,科大讯飞也提出以全自动无监督的方法可以快速得到单个目标发音人的纯净音频。

阿拉巴马大学伯明翰分校的一项调查表明,如果给予AI的信息足够多,那么它可以生成任何以假乱真的图片或视频。但是随着现在个人的声音已经越来越成为个人身份的标志之一,对个人声音利益的侵害也同肖像权一样可能有损个人人格尊严造成财产上的损失。明星的形象是有肖像权的,如果他们的照片被他人私自用于商业,那么他们可以将对方告上法庭以维护自己的肖像权。但是目前在我国立法界及学界对声音权的保护却仍无统一定论。

2. AI配音干扰声纹识别

大家或许听说过声纹识别。一般来说,人的发声具有特定性和稳定性,虽不能达到指纹那样精确的程度,仍然有越来越多的国家已经把声纹鉴定作为辨认犯罪嫌疑人的重要手段。

但在GeekPwn2017国际安全极客大赛上,白帽黑客们却上演了一场与声纹识别的对弈。现场5组选手有4组根据《王者荣耀》中英雄妲己的声音样本,利用AI语音合成技术模拟妲己的声音并通过了“声纹锁”的验证,成功欺骗了语音验证系统。这意味着利用个人声音验证身份可能没那么靠谱。

声纹识别在现实中用途十分广泛,离我们比较近的有手机声纹解锁。另外,它也能用在智能家居产品及公共安全领域。但是当声纹识别遇上了AI语音合成技术,一场智能的博弈就开始了,一不小心就会打开个人隐私安全的“潘多拉魔盒”。AI语音合成技术越高明,持有该技术的人就能越轻而易举地闯入你的生活。

此外,在刑侦工作中,原本进行声纹分析可以判断说话人的性别、年龄、方言(生活地区)等特征,为侦查提供方向和范围。但AI配音的干扰要求刑侦手段需迅速跟上科技发展的步伐,否则声纹识别的有效性就会受到质疑,司法判决的过程也会变得异常艰难,这无疑为犯罪者提供了另一层“保护伞”。

3. AI又和艺术家们“杠上了”

AI在《创新中国》中配音的表现令人吃惊,不禁有人发问,AI配音如果在行业里被广泛应用,是否AI会取代传统的配音演员呢?“配音演员”由四字组成,不仅在“配音”,更在“演员”。2018年年初,综艺节目《声临其境》在展示了优秀演员的配音功力的同时,也让观众看到在配音间里,配音者不仅要提供声音,更要演戏。因为配音必须要符合剧本角色的情绪,甚至呼吸的频率都要对得上。

目前要建立机器的情感识别系统已经非常困难,机器深度学习需要大量数据进行量化分析,而人类的情感是最难以被量化的,更别说让机器产生情感并进行配音。配音演员和演员这两种职业本就不同,让AI取代传统配音演员独立参与影视剧制作几乎是不可能的。

不过,利用AI配音代替游戏配音和读书配音倒是不错的选择。与纪录片一样,此类配音效果并不需要调动太多的情绪,就算AI配音需要有几种不同的感情色彩,其机器学习的量也在可控制的范围之内,不会像影视剧配音那样复杂。

在AI配音这件事情上,有人拍案叫绝,有人忧心忡忡。“技术善论”和“技术恶论”的争论不会停止,但是只要控制的“阀门”还掌握在人类手中,一切就不会那么糟。

未经允许不得转载:涨姿势 » AI在舞台上配音时为什么也会唱“黑脸”?

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏