译者 | 李睿
审校 | 孙淑娟
本文将简要概述语音识别技术及其常见应用,并演示一个免费的语音到文本的API,该API可用于以MP3和WAV文件格式转录音频。这个演示将包括逐步指令使用“即运行Node.js代码”示例调用这个API。
语音识别技术的概述
人们通常将语音识别技术视为当代技术领域的一个相对较新的补充,而这只是一部分事实。语音识别技术已经存在了半个多世纪,从上世50年代初的一些先驱公司开发的功能有限的数字/文字识别系统开始。,尽管语音识别技术有着悠久的历史,过去十年来在智能消费类设备领域得到了广泛应用,但语音识别仍然是当今市场上较为抽象的技术之一。这是因为各种语音识别技术都跨越了计算机科学、计算语言学和数学/统计学等领域,需要各个领域的大量输入才能获得准确的语音到文本结果。
在(非常)高的级别上,为了让语音识别技术实施其最基本的任务,必须首先对给定的音频文件进行预处理以优化其质量。然后将其分解为更小的分量信号并进行排序。这些经过排序的信号必须足够小,以便数学模型可以将其与某些音素(结合在一起生成单词的特定于语言的声音;例如“eeee”或“ahhh”噪音)匹配,这有助于与该语言中的短语或句子进行比较。归根结底,语音识别服务的目标很简单:尽可能准确地猜测录制的音频中使用了哪些单词,并不断改进和扩展其语言数据库,直到猜测达到可接受的准确性水平。
这种复杂且固有的有限信息猜测系统甚至使最基本的语音识别服务也依赖于语言和方言,因为它们依赖于音频质量。语言、口音、词汇的变化以及背景噪音的存在都会产生边界,这对于单个语音到文本模型很难克服。此外,这种复杂性反映了一个基本事实,即语音识别服务是高度资源密集型的,依赖于庞大并且不断增长的参考数据集进行语音比较,需要相当大的计算能力才能有效利用这些数据集。这些因素共同使得训练一个全新的语音到文本模型成为一项艰巨的任务。
语音识别的应用
语音识别在很大程度上是由于在更大的技术市场上出现了一些无处不在的创新,尤其是近乎无限的云计算数据存储解决方案的增长,语音识别已成为人们现在在日常生活中认识到的高效而有用的消费者服务。人们可以直接采用手机、固定电话和办公室设备进行沟通和对话,以自动查询所需要的信息,记录和组织自己的想法供以后使用,以及听到大声宣读的短信,等等。
目前,消费者应用只是语音识别技术应用的冰山一角。语音识别的许多相互关联的过程的进步创造了扩展音频转录输出的机会,并鼓励越来越多的商业应用程序进行语音到文本转换。在人们的周围有很多这样的例子。许多虚拟会议平台现在使用语音识别服务(通常是实时的)对团队演示文稿进行转录,生成的文本可以方便地存储给任何可能错过会议的人。聊天机器人利用语音识别帮助人们在手机上进行选择,这些对话中转录的音频可以用于其他用途:为未来更好的客户服务实践提供信息。人们可能参加的讲座、访谈、演讲和其他演讲活动可以通过个人设备进行录制和转录,以消除人工抄录笔记的工作。例如,这些转录可以通过自然语言处理(NLP)模型进行处理,以从转录文本中寻找以前看不到(或听不到)的见解。
值得一提的是,实用的内容调节和搜索引擎优化功能也可以从可扩展的语音到文本分析服务中获得——而这次是在企业数据存储环境中获得。考虑到大多数客户端上传内容的不可靠性,自动转录上传到网站的音频文件可以轻松调节父级音频文件的语言,以确保其对所有听众安全(例如查看是否包含极有争议的语言、仇恨言论或任何形式的对个人或团体的骚扰)。这显著减少了内容审核人员的工作量,并提高了其效率。这些相同的转录文件还可以用于生成有用的关键字,从而使音频文件更容易从大型数据库中搜索和检索。
示范:CloudMersive语音到文本API
将语音识别作为一项服务加以利用的一种方法是通过包含Cloudmersive语音到文本API。该API目前支持MP3或WAV格式,并采用深度学习人工智能模型提供高精度的音频转录。其API参数非常简单,只需要输入音频文件和Cloudmersive API密钥(API密钥可以通过在其网站上注册一个免费帐户获得,该帐户每月最多生成800个API调用)。以下将演示如何使用互补Node.js代码段构建API调用。
第一步是安装Node.js SDK。这可以通过运行以下命令来做到:
npm install cloudmersive-speech-api-client --save
另外,可以将以下这一代码段添加到其软件包中。
"dependencies": {
"cloudmersive-speech-client": "^1.1.5"
}
在安装完成之后,可以使用以下代码块构建API调用。此时,需要确保已经准备好以下参数:
(1)MP3或WAV音频文件。
(2)CloudMersive API密钥。
var CloudmersiveSpeechApiClient = require('cloudmersive-speech-api-client');
var defaultClient = CloudmersiveSpeechApiClient.ApiClient.instance;
// Configure API key authorization: Apikey
var Apikey = defaultClient.authentications['Apikey'];
Apikey.apiKey = 'YOUR API KEY';
var apiInstance = new CloudmersiveSpeechApiClient.RecognizeApi();
var speechFile = Buffer.from(fs.readFileSync("C:\\temp\\inputfile").buffer); // File | Speech file to perform the operation on. Common file formats such as WAV, MP3 are supported.
var callback = function(error, data, response) {
if (error) {
console.error(error);
} else {
console.log('API called successfully. Returned data: ' + data);
}
};
apiInstance.recognizeFile(speechFile, callback);
这样就完成了API的构建,无需进一步的代码段。成功的API呼叫将返回包含API转录结果的Textresult字符串。务必记住的是,输入文件中的音频质量将对API创建准确转录的能力产生重大影响,因此建议在实施这一操作之前尽可能预处理和优化音频质量。
原文标题:How to Leverage Speech-to-Text With Node.js,作者:Brian O'Neill