自然语言处理(NLP)的定义
自然语言处理(NLP)是人工智能技术的一个分支,它使计算机能够像人们一样理解、处理和生成语言,并且在商业中的应用正在迅速增长。
虽然自然语言处理(NLP)这一术语最初指的是人工智能系统的阅读能力,但它后来成为所有计算语言学的一种通俗说法。其子类别包括自然语言生成(NLG)(计算机自行创建通信的能力)和自然语言理解(NLU)(理解俚语、错误发音、拼写错误以及其他语言变体的能力)。
[[323561]]
自然语言处理(NLP)的工作原理
自然语言处理通过机器学习(ML)进行。机器学习系统像其他任何形式的数据一样存储单词及其组合方式。将短语、句子,有时甚至整本书的内容都输入机器学习引擎,并根据语法规则和人们的现实语言习惯(或两者兼而有之)进行处理。然后,计算机使用这些数据来查找模式并推断出下一步的工作。以翻译软件为例:在法语中,“我要去公园”是“Je vais au parc”,因此机器学习预测“我要去商店”也将以“Je vais au”开头。
自然语言处理应用
机器翻译是更好的自然语言处理(NLP)应用程序之一,但它并不是最常用的一种。人们每次在Google或Bing搜索引擎中查找内容时,都将数据输入到系统中。当单击搜索结果时,搜索引索会将其视为对找到的结果正确的确认,并在以后使用这个信息更好地进行搜索。
聊天机器人的工作方式与其相同:它们与Slack、Microsoft Messenger和其他聊天程序集成在一起,可以在其中读取人们所说的语言,然后在说出触发词语时将其打开。当Siri和Alexa等语音助手听到“Hey,Alexa”之类的短语时,它们就会进行响应。这就是批评者指责这些程序一直在监听的原因:如果不是,它们永远不会知道人们何时需要它们。除非人们自己打开应用程序,否则自然语言处理程序将在后台运行,等待短语的出现。
自然语言处理(NLP)对人们的利大于弊。人们可以想象一下没有谷歌搜索或者拼写检查程序的生活。它使用自然语言处理(NLP)将输入的单词与字典中的单词进行比较。通过比较这两个数据集,拼写检查程序可以找出问题并提供建议。
自然语言处理(NLP)示例
搜索引擎和拼写检查的应用如今非常普遍,人们经常将它们视为一种理所当然的技术,尤其是在自然语言处理(NLP)可以显著提高生产力的工作中。例如如果想知道还剩下多少假期?不必询问人力资源部门。可以采用聊天机器人Talla节省时间,它会搜索企业政策以寻找答案。打电话联系客户需要翻看手机所存的电话号码?可以采用语音提示,通过声音搜索启动SecondMind,将会给出所需的号码。这种集成的搜索工具可以加快员工与客户的沟通。
自然语言处理还可以帮助招聘者对简历进行分类,吸引各种应聘者并雇用更多合格的员工。对垃圾邮件进行检测可以使用自然语言处理(NLP),以阻止垃圾电子邮件进入人们的收件箱;此外,可以采用Outlook和Gmail等程序将某些人的邮件分类到创建的文件夹中。
诸如情绪分析之类的工具可帮助企业快速识别推文内容的好坏,从而可以了解客户的顾虑。情感分析不仅可以处理社交媒体上的文字,还可以分解词语出现的语境。对于分析机构Periscopic公司的数据可视化工具SkyeMorét来说,只有30%的英语单词是正面的,其余的是中性或负面的。因此,自然语言处理(NLP)可以帮助企业更全面地理解一个帖子:在这些中性词汇背后,消费者表达的情感是什么?
传统上,企业使用自然语言处理将反馈分为积极和消极两类。但是Fleishman Hillard公司社会和创新业务的高级副总裁Ryan Smith表示,当今的自然语言处理工具可以识别更精确的情绪,例如悲伤、愤怒和恐惧。
自然语言处理(NLP)软件
无论人们是要构建聊天机器人、语音助手、预测文本应用程序,还是以自然语言处理为核心的其他应用程序,企业都将需要采用工具。根据调查,最受欢迎的自然语言处理软件包括:
- 自然语言工具包(NLTK)。自然语言工具包(NLTK)是一个开放源代码框架,用于构建Python程序以使用人类语言数据。它是在宾夕法尼亚大学计算机和信息科学系开发的,为50多个语料库和词汇资源库、一个文本处理库、自然语言处理库和论坛提供接口。自然语言工具包(NLTK)是在Apache2.0许可下提供的。
- SpaCy。SpaCy是一个开放源代码库,用于高级自然语言处理,专门为生产目的而非研究目的而设计。SpaCy的设计充分考虑了高级数据科学,并允许深度数据挖掘。它是由麻省理工学院授权的。
- Gensim。Gensim是一个用于自然语言处理的开源Python库。独立于平台的库支持可扩展的统计语义、针对语义结构的纯文本文档分析以及检索语义相似文档的能力。可以在无需人工监督的情况下处理大量文本。
- Amazon Comprehend。这项Amazon服务不需要机器学习的经验。它旨在帮助组织从电子邮件、客户评论、社交媒体、支持通知单和其他文本中获得见解。它使用情感分析、词性提取和标记化来分析单词背后的意图。
- IBM Watson音频分析器。这个基于云计算的解决方案旨在用于社交监听、聊天机器人集成和客户服务监控。它可以分析客户帖子中的情绪和语气,并监视客户服务电话和聊天对话。
- 谷歌云翻译。这个API使用自然语言处理来检查源文本以确定语言,然后使用神经机器翻译将文本动态翻译为另一种语言。这个API允许用户将功能集成到他们自己的程序中。
自然语言处理(NLP)课程
有很多资源可用于学习创建和维护自然语言处理应用程序,其中许多是免费的资源。其中包括:
- DataCamp中的Python自然语言处理。这门免费课程提供15个视频和51个练习文件,涵盖了使用Python处理自然语言的基础知识。它涵盖了如何识别和分隔单词,如何在文本中提取主题,以及如何构建自己的虚假新闻分类器。
- Udemy的自然语言处理(NLP)。这个入门课程提供使用Python和自然语言工具包处理和分析文本的实践经验。它包括三个小时的点播视频,三篇文章和16个可下载资源。该课程费用为19.99美元,并提供结业证书。
- 使用Udemy的Python进行自然语言处理(NLP)。这个课程面向具有语言基础编程经验,理解面向对象编程的概念,具有基础到中级数学知识以及矩阵运算知识的个人。它完全基于项目,并且涉及构建文本分类器以实时预测推文的情绪,以及构建文章摘要器,该文章摘要器可以获取文章并提取摘要。该课程包括10.5小时的点播视频和8篇文章。该课程费用为19.99美元,并提供结业证书。
- edX的自然语言处理(NLP)。由微软公司通过edX提供的为期六周的课程概述了自然语言处理和经典机器学习方法的使用。它涵盖了统计机器翻译和深度语义相似性模型(DSSM)及其应用。它还涵盖了在自然语言处理和视觉语言多模式智能中应用的深度强化学习技术。这是一门高级课程,完成该课程学习的人员只需支付99美元即可获得认证证书。
- Coursera公司提供的自然语言处理。本课程是Coursera公司高级机器学习专业化的一部分,涵盖自然语言处理任务,包括情感分析、摘要、对话状态跟踪等。Coursera公司表示,这是一门高级课程,需要学习五个星期,每个星期需要学习四到五个小时。
自然语言处理为社会公益提供支持
除了帮助企业处理数据外,情绪分析还可以帮助人们了解社会动态。例如,Periscopic已将自然语言处理(NLP)与视觉识别结合使用,创建了特朗普表情计算器(Trump Emoticoaster),这是一种处理语言和面部表情的数据引擎,目的是了解美国特朗普总统的情绪状态。
类似的技术也可以防止校园枪击事件:在哥伦比亚大学,研究人员已经处理了9000名暴力倾向的年轻人发布的200万条推文,并在寻找问题的答案:随着青少年越来越倾向采用暴力,那么其语言是如何改变的?
Coursera公司项目总监Desmond Patton博士说,“有问题的内容会随着时间的推移而发展。”随着一些年轻人越来越接近危险的边缘,他们会通过语言表达。然后,自然语言处理会标记出有问题的情绪,以便社会工作者可以进行干预。
与Periscopic一样,Columbia公司将情感分析与图像识别结合使用,以提高准确性。Patton说,计算机视觉将推文上的图片进行分解,然后机器学习将它们与语言一起处理,以告诉“图片的真实情感”。这个图像是关于悲伤的吗?这是有关威胁的图片吗?这些图像中还发生了什么,可以帮助人们更好地理解?”除校园枪击事件之外,哥伦比亚计划还希望采用这种技术防止团伙暴力。
自然语言处理(NLP)以提高个人水平
自然语言处理(NLP)还可以帮助人们监控自己的情绪状态。Woebot是一种电子治疗师,可通过Facebook Messenger聊天机器人或独立应用程序与用户联系。不过,目前还没有高级的情感分析技术,Woebot实际上只能跟踪那些抑郁和焦虑,可能表明用户面临紧急情况的词汇。