语音识别--机器学习发展如何助力配音技术提升--其乐融融的IT技术小站

译者 | 李睿

审校 | 梁策孙淑娟

人工智能(AI)技术在过去几年发展迅速，为商业人士提供了一种深入学习模式。尽管离在音频世界大展身手还需要一些时间，但人们已经看到AI在视频和图像处理方面的悄然崛起。

作为人工智能的一部分，机器学习改变了人们使用配音技术的方式。人们熟悉的Cortana、Siri、Alexa许多语音助手都采用了配音技术。也正是由于人工智能技术的进步，AI产出的声音变得比以往任何时候都更加真实，并且在自然语音处理方面做得更加出色。

本文将讨论机器学习和人工智能已经取得的进展，以及它们如何对语音技术提升产生的影响。

1.机器学习如何改进语音技术

(1)音频更智能

随着对语音技术的需求开始增长，自动语音识别(ASR)方面的提供商正加大语音识别产品的创新，以满足人们的更多需求。

语音识别技术的用户在增加，市场规模也在扩大。根据一项研究，到2026年，全球语音识别市场规模将增长到220亿美元。这种巨大的转变将为自动语音识别(ASR)带来挑战，推动其创新并成功应对同种语言中的不同方言，比如以英语为母语的人在不同的国家和地区(例如澳大利亚、英格兰、苏格兰、美国等)就会使用不同的方言。

只有在机器学习(ML)和人工智能(AI)功能的双重驱动下，自动语音识别(ASR)才能做到将同种语言中不同方言的口语单词转换为文本。此外，它还能够识别来自一种语言的更多方言和口音。换句话说，有一天，全世界使用的每一种语音技术都将使用一个逼真的人工智能语音生成器。

关于音频技术中机器学习的一些真实示例包括：

iZotope&Neutron 2：贴心的音轨助手能利用人工智能和机器学习功能来检测直接向用户提供预设的仪器的跟踪协助。它还具有一个实用程序，用于隔离音频中的对话。
LANDR：一种自动音频母带处理服务，它完全依赖人工智能和机器学习来设置有关数字音频处理的参数。
Google Wavenet：一种用于生成录音的学习模型。

(2)数据就是推动力

计算机的声波部分处理是语音识别的初始步骤，即声音将会转换成数据。因此，要使语音识别社会工程获得成功，这一过程应包括以下内容：

语音采集样本完全可访问或有可靠的语音数据库。
由于表征数据集的功能数量较少，消除提高算法学习能力的实用功能。
机器学习算法用于创建可靠的分类器，并允许机器学习算法从训练样本中学习以进行新的观察。

最后，深度学习适用于语音识别技术，并且在任何环境中的日常使用中都保持精确，因此，语音识别系统可在给定的环境中平稳运行。

现实中，想要创建语音识别系统的开发人员需要有大量的训练数据。如果从经济角度上来说，这可能需要花费数百万美元来收集正确的转录数据。只有这样，才能对转录数据正确地训练语音识别系统。

(3)人工智能和机器学习中的数字信号处理

尽管在音频处理中应用人工智能和机器学习还处于早期阶段，但深度学习方法使人们能够从不同的角度解决信号处理问题，而这一问题目前正被广大音频行业用户忽视。一般来说，理解声音和信号处理是复杂的，很难用语言来描述。

例如，听到两个或更多人说话，这两个人互相交谈的参数会如何描述呢?这当中要考虑的因素很多，其中一些问题包括：

性格(年龄、性别、活力)如何影响这些声音?
室内声学和距离对理解水平有多大影响?
谈话过程中可能出现的其他噪音怎么办?

正如人们所见，对配音的测量可以源自许多参数，并且需要对它们给予重视。在这种情况下，人工智能可以为人们提供一种实用的方法，为学习创造所需条件。

深度神经网络音频处理正日益发展，但仍有许多问题需要人们解决，包括：

高保真音频重建：小型低质量麦克风。
空间模拟：用于双耳处理和混响。
选择性降噪：去除某些元素，例如汽车交通。
模拟音频仿真：估计非线性模拟音频组件之间的复杂交互。

(4)配音艺术家

使用深度学习(机器学习)创建自然声音的关键步骤是在这个过程中拥有原始音频。相对而言，世界各地的许多企业都在与配音艺术家合作创作配音产品。大多数配音师在每次使用他们的人工智能语音时可以获得版税，从而获得丰厚的报酬。

但是，配音师也会碰到被骗的问题。他们虽然录制了配音，但没有进一步了解使用者是谁。例如，Siri的原声配音人员苏珊·本尼特(Susan Bennett)与ScanSoft公司签订了合同，但她从不知道自己的录音实际上是为苹果公司录制的。她只获得了录制配音的一次性报酬，并没有获得持续收入。

此外，配音师遇到的其他一些问题是，在现有技术背景下，业内的合同和费用尚未得到很大提升。此外，还有人认为配音可能被负面使用，甚至可能会毁掉配音师的声誉。例如，它可被用于不想与之合作的公司以及用于粗俗的语言。

(5)用例的兴起

由于人工智能和机器学习能让人们以最自然的方式增加定制体验、找到解决方案、访问服务、进行产品退货，语音技术在各个行业中不断发展。以下是机器学习和人工智能如何改变自然语言处理案例的几个例子：

消费者下订单：另一种在消费行业中涉及语音识别和转录的应用。消费者有机会更快、更有效地订购。不用花时间浏览整个菜单，客户只用语音请求就能在几秒钟内下订单。
虚拟助理：根据一项研究，到2024年，市场上的语音助手预计将超过84亿台。语音助手可以支持IT帮助台团队等等。通过向虚拟助理提出更多要求，企业员工有更多时间完成日常任务，并更有效地利用时间。
客户亲密度分析：零售企业开始使用音频挖掘软件来更好地分析呼叫中心的对话，并了解他们的客户。由机器学习和人工智能提供支持的自动语音识别(ASR)可以精准了解客户，并从其讨论中提取有价值的见解。

(6)语音识别技术是未来吗?

语音识别技术必定在未来大放异彩。随着人工智能和机器学习技术不断改进，人们将看到它们的使用场景不断增加。此外，配音师也将获得一席之地。由于可以通过他们协助语音识别技术改进，之后语音技术可能会发展到与人们交谈时带有各种情绪的程度。

2.结语

以上就是机器学习和人工智能在过去几年为语音技术带来的提升，以及这种提升不断发展的原因。有朝一日，语音技术或将发展至人们与语音助手交谈就像与人交谈一样的程度。

企业则需要考虑如何将语音技术纳入其业务战略。毕竟，世界正在朝着新的起点和技术路径转变，如果他们把语音识别技术融入业务，将有助于他们脱颖而出。

原文链接：https://www.smartdatacollective.com/machine-learning-advances-are-improving-voiceover-audio-technology/