语音识别--人工智能配音演员如何“以假乱真”--其乐融融的IT技术小站

人工智能语音初创公司Sonantic表示，他们在音频深度模仿方面取得了一项小小的突破，创造出了一种可以表达挑逗和调情等微妙情感的合成声音。该公司表示，其进步的关键是将非语言声音融入到音频中：训练人工智能模型重现那些微小的呼吸气息，诸如微小的嘲笑和半隐藏的笑，使得人工智能的声音打上真实的生物印记。

Sonantic的研究目标是看看人工智能是否可以模拟微妙的情绪，诸如愤怒、恐惧、高兴、悲伤和富于感情等。

Sonantic的首席执行官齐娜·库雷希(Zeena Qureshi)将该公司的软件描述为“声音的Photoshop”。它的界面可以让用户输入他们想要合成的语音，指定讲话的语气，然后从一组人工智能声音中选择，这些声音大部分都是模仿真人演员的。这绝不是一种独一无二的产品(其竞争对手，如Descript也销售类似产品)，但Sonantic表示，其定制化程度比竞争对手更深入。

情感选择包括愤怒、恐惧、悲伤、幸福和喜悦。如今最新选项还包括调情、忸怩、戏弄和自夸。“导演模式”允许进行更多的调整：声音的音调可以调整，声音的强度可以上下调节，还有那些非语言的声音，比如笑声和呼吸。

这是Sonantic的主要特色：指导、控制、编辑和塑造表演的能力。目前客户大多是游戏工作室和娱乐工作室，但公司正在向其他行业拓展。早些时候，刚刚与奔驰达成了合作(定制其车内数字助手)。

然而，就像此类技术的常见情况一样，Sonantic成就的真正基准是其机器学习模型的音频，而不是那些经过润色的、为公关准备好的演示版本。

人工优化是为了最大限度地发挥AI声音的作用。许多人工智能的努力都是如此，比如自动驾驶汽车，它们已经成功实现了非常基本的驾驶自动化，但仍在努力实现最后也是最重要的那5%的人类能力。这意味着要实现完全自动化、完全可信的人工智能语音合成还有很长的路要走。

不过除了技术本身的问题，Sonantic的研究还引发了其他问题——比如，部署调情AI的道德标准是什么?以这种方式操纵听众公平吗?为什么Sonantic要把调情的形象塑造成女性呢?(在男性占主导地位的科技行业，这种选择算不算一种微妙的性别歧视。)

Sonantic表示，他们选择女性声音只是受到了斯派克·琼斯(Spike Jonze) 2013年的电影《她》(Her)的启发。在这部电影中，主人公爱上了一名名为萨曼莎(Samantha)的女性人工智能助理。另一方面，Sonantic表示已经认识到伴随新技术发展而来的道德困境，并且在如何以及在何处使用人工智能声音方面非常谨慎。

首席执行官库雷希表示:“这是我们坚持从事娱乐业务的最大原因之一。它被用于最好的娱乐产品和模拟。“

将人工智能语音合成与其他娱乐产品进行比较是合理的。毕竟，我们可以分辨电影和电视剧的真假(因为它们都是假的)。

但还有一点需要说明的是，人工智能将允许大规模部署此类操纵，而较少关注其在个别案例中的影响。例如，在世界各地(包括国内)，人们已经开始与人工智能聊天机器人建立关系，甚至坠入爱河。给这些机器人添加人工智能生成的声音肯定会让它们变得更强大，这引发了人们对这些和其他系统应该如何设计的疑问。如果人工智能的声音可以令人信服地调情，它们会说服你做什么?

相关推荐