自然语言处理--疯狂在左，理性在右：算法在中间--其乐融融的IT技术小站

　　作者：千山

　　审校：武穆

　　随着技术进步，AI展现出了强大的发展潜力。从第一个打败人类围棋世冠的AlphaGo到可以自主编程的AlphaCode，AI的可塑性常常令人惊叹。不过与AI有关的争议也一直如影随形，比如人脸识别涉及的隐私问题、诸多假新闻的自动生成等。

　　如今，OpenAI新推出的DALL·E 2系统又一次引发了关注，这个系统能根据文本描述自动生成各种图片，这些图片不仅能以假乱真，而且往往拥有光怪陆离的表现力。但在这种能力的背后，关于偏见和造假的隐忧再次浮出水面。因为技术虽无善恶，但人性可能经不起考验。

　　你见过泰迪熊在时代广场玩滑板吗？你见过宇航员在外太空骑马吗？

　　DALL-E 2 让你“看”到了以上两幅现实中根本不存在的图像。

　　DALL-E 2是何物？它是闻名遐迩的 OpenAI 开发出的文本生成图像工具DALL-E 的最新版本，也是最近有点小破圈、引起了一定讨论热度的AI系统。

DALL-E 2：画质飞升，新增二次创作功能

　　2021年1月，OpenAI创造了DALL-E。这一系统是基于GPT-2/GPT-3语言模型与CLIP图片识别系统而生成的。据了解，DALL-E这一名称来源于超现实主义画家萨尔瓦多·达利（Salvador Dali）和皮克斯出品动画《机器人总动员》的主角瓦力（WALL-E）的名字组合。

　　相较第一代DALL-E，DALL-E 2在精确度和写实度上分别提升了71.7%和88.8%，在画质上更是得到了质的飞跃。举例来说，初代DALL·E图片像素只有256×256，而DALL·E 2像素可达1024×1024，分辨率更胜一筹，延迟也变得更低。

　　就像同样的文本描述“a painting of a fox sitting in a field at sunrise in the style of Claude Monet”（一幅狐狸在日出时坐在田野里的画，莫奈风格），在两代系统中生成的图片表现就有明显差异。直观来看，左边（DALL-E 1）像粗糙的卡通画，而且糊作一团，右边（DALL-E 2）的清晰度明显提升，且真正有了油画的质感。

图源：OpenAI官网

　　而且，DALL-E 2还新增了两个功能——“图像修补”（ inpainting）和“变体”（variations），可以用于编辑和润色图片。

　　“图像修补”就是局部变更现有图片中的一部分。具体来说，就是通过DALL·E 2用AI生成的图像填充或替换图片中的单个对象，同时和原图无缝衔接，比如将沙发上的抱枕换成一只小狗，或在水池中放一只玩具鸭子。

图源：OpenAI官网

　　“变体”是指以一张图像为蓝本，重新创造出不同角度不同风格的新图像。用户可以在上传一张原始图片后对其进行各种风格变化，还可以将两张图片上的对象进行叠加生成新图。

图源：OpenAI官网

突破与挑战：以假乱真的图片是如何生成的

　　此次 Open AI 推出的新版本 DALL-E 2 是基于名为CLIP的计算机视觉系统而建立的。CLIP 接受了数亿张图像及其相关标题的训练，了解给定文本片段与图像的关联程度。

　　值得关注的是，OpenAI通过对 CLIP 进行迭代，创建了“unCLIP”——一个基于描述并朝着图像生成目标运行的新系统，同时将其用于 DALL-E 2。unCLIP可以部分完善 CLIP 的不足之处，即“人们可以通过给物体贴上一个表示其他东西的单词，来诱使系统错误地识别所看到的内容”。

　　举个例子，如果教给系统一个名称错误的对象，比如一张标签名称是“汽车”的飞机图片，那么之后当用户想要生成“汽车”的图像时，也许就会生成一张飞机的图像。这个过程就像和一个学了错词的人交谈一样。在这一点上，unCLIP的表现要比 CLIP 出色得多。

　　同时，新系统支持扩散模型（Diffusion Models），这种程序会先从随机点形成的图案开始，一旦取得更具体的描述重点后，会渐近地转变成图片。其优势在于可以生成高质量的合成图像，尤其在与引导技术结合使用时，能够在保真度上权衡多样性。

　　不过，尽管文本生成图片的相关研究一直在进步，但始终有不尽如人意的地方，就像DALL-E 2同样会被其训练中的盲区所限制。

　　比如，你在DALL-E 2中输入通过学习图像与正确标签而理解的“猴子”，它会生成不少有意思的猴子图像。但如果你输入“吼猴”（howler monkey），同时它又没学会“吼猴”是什么，不知道这其实是一个物种名称。那么DALL-E 2会给你它所认为的最优结果——一只在大吼大叫的猴子。就目前来看，DALL-E 2的潜力和局限同样突出、同样清晰。

技术需要深究，人性不可窥探

　　有意思的是，一直以来，Open AI 都没有完整公开过 DALL-E 的模型。目前，用户可在其官网注册账号后预览该工具。相关研究人员只表示，希望继续进行分阶段的过程，以便能安全地发布这项技术。

　　尽管 DALL-E 2 的造物令人眼花缭乱，但很多人已觉察到这项技术背后的隐忧。姑且不论算法自诞生以来就饱受诟病的偏见问题，光是其几可乱真的图片质量就可以让人心生忌惮。就像亚利桑那州立大学计算机科学教授苏巴拉所说：“你可以用它来做好事，但你肯定可以用它来做更加疯狂的事情，包括深度伪造的照片和视频。”

　　如同当初GPT-3被质疑用来生产假新闻一样，DALL-E 2这样的图片生成工具也有可能遭到滥用。如果人人都可以不费力地输出大量毫无违和感的假照片时，人人自危还会远吗？毫无疑问，“人们将不得不对他们在网上看到的几乎所有东西持怀疑态度。”

　　关于DALL-E 2的外媒报道下，有读者一针见血地指出：“如果这件事公开，最明智的做法是完全脱离网络和电视，避免与那些想告诉你在网络上看到什么东西的人有任何接触。如果未来全息影像成为主流，那么我们将为子孙后代创造一个反乌托邦式的地狱。”

　　对此，OpenAI也有了预判并表示，其将在持续构建 DALL-E 的同时利用保护性的策略来应对图像偏见及错误信息等潜在问题。这些措施包括：

　　DALL-E 2生成的图片会有一个水印，标志其来自人工智能。

　　DALL-E 2 是基于筛选掉不良材料后的数据所训练出来的。理想情况下已限制了其产生有害内容的能力。

　　反滥用功能，使DALL-E 2不能通过名字随意生成可被识别的人物面孔。

　　用户不得在该工具“上传或生成仇恨符号、裸体、淫秽手势及与正在发生的重大地缘政治事件有关的阴谋或评论”。

　　用户需说明人工智能为生成图像所做的变化，且不能借由软件及网站将生成的图像给到其他人。

　　虽然不知成效如何，但至少DALL-E 2现在还被锁于“深匣”之中。当然，需要承认的是，DALL-E 2 强大的能力允许人们通过以前完全无法实现的方式用图像表达自己，在此之前，没人知道“长的像牛油果的椅子”“弹吉他的北极熊”“达利风格的空中花园”“留着莫西干头的蒙娜丽莎”是什么样，如今DALL-E2却让这一切都以逼近现实的方法呈现在大众眼前。同时，DALL-E 2也帮助人们明白，一个复杂的人工智能系统如何观察和了解我们的世界，对于研发一个有用且安全的AI，这一点至关重要。

　　参考链接：

　　https://openai.com/dall-e-2/

　　https://www.assemblyai.com/blog/how-dall-e-2-actually-works/

　　https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing?scrolla=5eb6d68b7fedc32c19ef33b4

　　https://www.seattletimes.com/business/technology/meet-dall-e-the-ai-that-draws-anything-at-your-command/?utm_campaign=Artificial+Intelligence+Weekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_270

　　https://www.bilibili.com/video/BV1L3411n7nd?spm_id_from=333.337.search-card.all.click

DALL-E 2：画质飞升，新增二次创作功能

突破与挑战：以假乱真的图片是如何生成的

技术需要深究，人性不可窥探

相关推荐