人工智能语音初创公司Sonantic表示,他们在音频深度模仿方面取得了一项小小的突破,创造出了一种可以表达挑逗和调情等微妙情感的合成声音。该公司表示,其进步的关键是将非语言声音融入到音频中:训练人工智能模型重现那些微小的呼吸气息,诸如微小的嘲笑和半隐藏的笑,使得人工智能的声音打上真实的生物印记。
Sonantic的研究目标是看看人工智能是否可以模拟微妙的情绪,诸如愤怒、恐惧、高兴、悲伤和富于感情等。
Sonantic的首席执行官齐娜·库雷希(Zeena Qureshi)将该公司的软件描述为“声音的Photoshop”。它的界面可以让用户输入他们想要合成的语音,指定讲话的语气,然后从一组人工智能声音中选择,这些声音大部分都是模仿真人演员的。这绝不是一种独一无二的产品(其竞争对手,如Descript也销售类似产品),但Sonantic表示,其定制化程度比竞争对手更深入。
情感选择包括愤怒、恐惧、悲伤、幸福和喜悦。如今最新选项还包括调情、忸怩、戏弄和自夸。“导演模式”允许进行更多的调整:声音的音调可以调整,声音的强度可以上下调节,还有那些非语言的声音,比如笑声和呼吸。
这是Sonantic的主要特色:指导、控制、编辑和塑造表演的能力。目前客户大多是游戏工作室和娱乐工作室,但公司正在向其他行业拓展。早些时候,刚刚与奔驰达成了合作(定制其车内数字助手)。
然而,就像此类技术的常见情况一样,Sonantic成就的真正基准是其机器学习模型的音频,而不是那些经过润色的、为公关准备好的演示版本。
人工优化是为了最大限度地发挥AI声音的作用。许多人工智能的努力都是如此,比如自动驾驶汽车,它们已经成功实现了非常基本的驾驶自动化,但仍在努力实现最后也是最重要的那5%的人类能力。这意味着要实现完全自动化、完全可信的人工智能语音合成还有很长的路要走。
不过除了技术本身的问题,Sonantic的研究还引发了其他问题——比如,部署调情AI的道德标准是什么?以这种方式操纵听众公平吗?为什么Sonantic要把调情的形象塑造成女性呢?(在男性占主导地位的科技行业,这种选择算不算一种微妙的性别歧视。)
Sonantic表示,他们选择女性声音只是受到了斯派克·琼斯(Spike Jonze) 2013年的电影《她》(Her)的启发。在这部电影中,主人公爱上了一名名为萨曼莎(Samantha)的女性人工智能助理。另一方面,Sonantic表示已经认识到伴随新技术发展而来的道德困境,并且在如何以及在何处使用人工智能声音方面非常谨慎。
首席执行官库雷希表示:“这是我们坚持从事娱乐业务的最大原因之一。它被用于最好的娱乐产品和模拟。“
将人工智能语音合成与其他娱乐产品进行比较是合理的。毕竟,我们可以分辨电影和电视剧的真假(因为它们都是假的)。
但还有一点需要说明的是,人工智能将允许大规模部署此类操纵,而较少关注其在个别案例中的影响。例如,在世界各地(包括国内),人们已经开始与人工智能聊天机器人建立关系,甚至坠入爱河。给这些机器人添加人工智能生成的声音肯定会让它们变得更强大,这引发了人们对这些和其他系统应该如何设计的疑问。如果人工智能的声音可以令人信服地调情,它们会说服你做什么?