语音识别--很遗憾，自然语言理解是AI尚未攻克的领域--其乐融融的IT技术小站

短短几年之内，深度学习算法得到了长足发展，不仅在棋类游戏中击败了全球很优秀的选手，也能够以等同于、甚至超越人类的准确率识别人脸。但事实证明，人类语言仍是一项独特且深邃的难题，亦是AI技术所面对的最为艰巨的挑战之一。

[[377044]]

但是，突破能否如期而至?

一旦计算机可以有效理解人类语言内容，则必将彻底颠覆全球各品牌、企业与组织之间的交互方式。如今，大多数企业拿不出充裕的资源为每位客户提供一对一解答服务。但在语言AI真正成熟之后，企业将能够在任意时间通过任意渠道听取、理解并回应每一个问题。这是一项激动人心的发展愿景，但距离达成目标仍有漫长的道路要走。

直到2015年，人们才构建出一种足以在准确率方面与他类相匹敌的人脸识别算法。Facebook的DeepFace准确率为97.4%，仅略低于人类的97.5%。作为参考，FBI以往的人脸识别算法准确率仅为85%，意味着其做出的判断有超过七分之一概率是错的。

FBI算法是由一组工程师手工开发而成。其中每项特征(例如鼻子大小以及眼睛的相对位置)皆由手动编程而来。Facebook算法则真正实现了特征学习，其利用一种被称为卷积神经网络的特殊深度学习架构，模拟出人类视觉皮层通过复杂的多层结构处理图像内容。事实上，我们并不清楚这些皮层之间是如何联系的，因此一切“奥秘”都由算法自主探索得来。

Facebook之所以能够达成这一成就，依靠的正是实现类人级人工智能的两个基本思路：首先建立一套能够学习特征的架构，再将数百万张经过标记的高质量图像作为训练素材供其学习。

语言难关就在眼前

视觉的诞生虽然困难，但已经有数百万种物种在进化过程中攻克了这道难关。相比之下，语言似乎更为复杂。据我们所知，人类是目前唯一能够使用复杂语言交流想法的物种。

不到十年之前，出现了单凭某些词汇的出现频率即可大致推理出语义的AI算法。但这种方法显然忽视了同义词元素的存在，也无法应对某些表达在不同上下文中具有不同表意的问题。

2013年，Tomas Mikolov和他的谷歌团队创造出一种能够学习单词含义的架构。他们的word2vec算法能够将同义词相互映射，借此对大小、性别、速度等语义进行建模，甚至能够将国家与首都等特征关联起来。

但其中仍然缺少至关重要的一环——理解上下文。语言理解领域的真正突破诞生于2018年，谷歌公司在这时推出了BERT模型。Jacob Devlin和他的团队仍然沿用传统机器翻译中的架构，但向其中引入了学习句子内上下文信息的能力。

通过教育该模型填补维基百科文章中的遗漏单词，该团队得以将语言结构嵌入BERT模型。只需要使用数量有限的高质量标记数据，他们就成功完成了对BERT的调优，借此完成从为问题找到正确答案、到真正理解句子表意的多种任务。也凭借这一壮举，他们成为破解语言理解谜题的先驱：正确架构，加上大量可供学习的高质量数据。

2019年，Facebook的研究人员在此基础上又更进了一步。他们同时使用100种语言训练出类似的BERT模型。此模型能够以一种语言(例如英语)进行特征学习，再将成果应用于其他任意一种语言(例如阿拉伯语、汉语及北印度语)。这种具有语言中立性的模型能够在实际训练所选定的语种上实现与BERT完全一致的性能，并在迁移至另一种语言时将影响控制在较低程度。

这些技术本身确实给人留下了深刻印象。但在2020年初，谷歌研究人员最终得以在广泛的语言理解任务上超越了人类的表现。谷歌引入规模更大的网络架构与更多训练数据，终于将BERT架构推向了极限。如今，这套被命名为T5的架构在标记句子与寻找答案方面的表现已经超越人类。去年10月发布的多语种mT5模型已经能够在双语种间互译方面实现与人类相近的表现，更恐怖的是它能够支持多达100种语言。谷歌本周又公布了新的万亿级参数模型，整体架构规模更上一层楼，性能也进一步提升。

可能性

设想一下，未来的聊天机器人也许能够理解您用任何一种语言书写的内容，真正理解上下文并记住之前聊过的内容。这意味着我们得到的不再只是几条简单粗暴的预定义回应，而是真正的关切与解答。

搜索引擎也将能够理解您的问题，给出正确答案，而且不再纠结于您的用词是否严格准确。您可能还会迎来一位AI同事，它了解关于业务流程的所有知识。更重要的，如果能够使用正确的术语，那么单靠谷歌搜索没准就能解决客户的具体问题。连篇累牍的内部文档终将成为过去，留给AI模型快速浏览即可。

数据库的新时代即将来临。我们将彻底告别构造数据的繁琐工作——一切备忘录、电子邮件、报告都将由AI模型自动解释、存储与索引。由于数据库能够理解人类表达，您不需要求助于IT部门即可直接查询并创建报告。

这一切还只是冰山一角。目前一切依赖于人类语言理解能力的流程，都有可能被自动化功能所彻底颠覆。

没那么简单

但这里还有个问题。既然这么出色了，为什么这些算法还没得到普遍应用?因为单靠云计算资源训练T5算法，就花掉了谷歌约130万美元。幸运的是，谷歌研究人员慷慨地分享了这些模型。但如果要对当前任务进行调优，还需要额外承担一大笔资源开销，外加漫长的训练周期。

不过随着时间的推移，企业对于调优工作的不断探索，相信未来会有更多应用方案陆续涌现。另外，如果大家相信摩尔定律，那么五年左右之后我们就会迎来更复杂的语言AI应用，届时也会有新的模型全面超越T5算法。

2021年，我们距离AI技术的转折性突破还有遥远的距离。但只要能够迈过这道难关，AI技术必将释放出无穷的可能性。

相关推荐