倾覆想象的 AI 绘画:OpenAI 推出的第二代 Dall-E 2 利用指南
围绕OpenAI推出的第二代DALL-E 2系统的讨论不断处于两极分化的形态,以至在其推出了几个月后照旧如斯。
有用户认为那是一项能够从头定义艺术的打破性立异,而责备者则将其视为人工智能图像生成器给创意财产带来厄运的起头。
然而毫无疑问的是,DALL-E 2为我们创造和消费艺术开垦了新的可能性和挑战。本文详尽介绍了AI图像生成器DALL-E 2的用法和缺点。
什么是DALL-E 2?
DALL-E 2是一款人工智能图像生成器,它能够根据天然语言的文本描述创建图像和艺术形式。换句话说,它是一个根据文本生成图像的人工智能系统。
2021年1月,OpenAI推出了DALL-E模子,DALL-E 2是其晋级版。“DALL-E”那个名字源于西班牙闻名艺术家Salvador Dalí和广受欢送的皮克斯动画机器人“Wall-E”的组合。
2022年7月,DALL-E 2进进测试阶段,可供白名单中的用户利用。同年9月28日,OpenAI取缔了白名单的要求,推出了任何人都能够拜候而且利用的开放测试版。
展开全文
与最后的DALL-E一样,DALL-E 2也是一种语言生成模子,它利用文本提醒来创建原始图像。
虽然和之前DALL-E具有的120亿个参数的模子差别,DALL-E仅仅具有大约35亿个参数,但DALL-E 2生成的图像辨认率是DALL-E的四倍,那是一次令人印象深入的晋级。同时,DALL-E 2在实在感和字幕婚配方面似乎也做得更好。
若何利用DALL-E 2?
听起来,DALL-E 2很有将来感,可能会让新用户看而生畏,但它利用起来十分简单。我们不停止详尽介绍,仅通过迷你教程为各人供给快速概览。
起首,登岸DALL-E 2的官网并创建一个帐户,假设您此前已经拥有OpenAI的帐户,登岸即可。需要重视的是,系统会要求您供给电子邮件和德律风号码以停止验证。
一旦帐户预备停当,我们就能够起头生成图像。用户最多供给400个字符的描述性文本,AI艺术生成器将对其停止处置。根据测试,我们能够从文本提醒中得到许多原创且有趣的成果。
好比,我们输进“狼群在满月时嚎喊”就收到了如下的成果。
输进“一个3D衬着的罗马兵士正在歇息”则获得了以下的图像。
DALL-E 2的工做原理是什么?
DALL-E 2为AI图像生成器的量量供给了新的基准。它与之前的同类产物比拟,可以更好天文解文本描述。
其卓著的天然语言理解才能能够更严厉地掌握图像的风气、主题、角度、布景、位置和概念,并获得更高量量的图像和令人印象深入的艺术形式。
那么让我们来看看DALL-E 2的工做原理。
要领会AI图像生成器的工做原理,我们起首需要领会CLIP、先验模子息争码器扩散模子(unCLIP)。
什么是CLIP?CLIP指的是比照语言图像预操练,是DALL-E 2架构中最关键的模块。
该操练基于用户能够用天然语言教计算机差别图像之间若何彼此联系关系,并由文本和图像编码器那两个神经收集构成。
文本和图像编码器都承受了大量差别的图像文本对聚集的操练。该模子阐发那些图像-题目对以创建称为文本/图像嵌进的矢量表达。换句话说,CLIP充任文本(输进)和图像(输出)之间的桥梁。
先验模子摘用题目/CLIP文本嵌进,并以此为根底生成CLIP图像嵌进。
unCLIP则是利用CLIP图像嵌进生成图的原始CLIP模子的逆模子。DALL-E 2通过先验模子和unCLIP模子来创建输出。
下图大致概述了其根本过程。
如图所示,unCLIP模子创建了图像的“心理”表达。基于此,创建了原始图像。
那些“心理再现”保留了语义一致的核心特征和特征,例如“动物、物体、颜色、风气和布景等关键要素”。然而,因为扩散进修是改变的,每一次输出的图像也会有所差别。
请重视,上文只是DALL-E 2工做原理的简要表述,实现的手艺细节和数学愈加复杂,我们就不在那里赘述。假设您对DALL-E 2的手艺规格感兴致,能够参看OpenAI在本年早些时候颁发的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。
利用DALL-E 2能够做什么?
只要用户给出切确和具有描述性的文本提醒,就能够通过AI艺术生成器得到多个高量量的图像,以至在几秒钟的时间里实现画家或数字艺术家需要数小时以至数天才气到达的量量程度。
用户能够免费查看所有那些视觉创意,无需付出场地费,也无需向创意人员和模特付出工资。
然而那也对我们的内容创做经济带来了必然的影响。
DALL-E 2利用本身对主题、风气、调色板和所需概念意义的“理解”,生成响应的图像。
每个图像最多能够产生四个变体。每一个都与原做的外看、觉得和意义相唤应,但又具有本身特殊的风气。
您也能够在DALL-E 2中编纂图像,无需任何照片编纂体味。与Adobe Photoshop差别,利用DALL-E停止编纂十分简单。
例如,用户想要在火星上行走的宇航员的肖像中添加一只狗,只需要输进“在宇航员死后放一只狗”。同样,用户还能够要求法式通过放大和缩小来更改图像的视图框架,曲到获得所需的成果。而就DALL-E 2的功用而言,那些只是冰山一角。
同时,根据设想,该系统无法生成涉及色情、血腥或政治元素的内容。也就是说,该法式有其合理的局限性和缺点。
DALL-E 2的局限性
DALL-E 2的输出量量很大一部门取决于用户供给的文本提醒的量量,文本越详细,获得所需输出的时机就越高。然而,该系统有一些内在的局限性。
例如,当前它还不具有很切确组合性,虽然似乎会跟着时间的推移而改进。那意味着DALL-E 2凡是无法有意义地合并多个对象或对象属性,例如外形、标的目的和颜色。
同时在一些意料之外的情状下,有一些相对简单的文本,法式也可能无法足够施行。
例如,我们输进文本“一百只妆扮成罗马兵士的青蛙在戈壁中行进”。即便我们测验考试了多种提醒变体,成果也不尽如人意。
另一个例子是当我们测验考试相当简单的提醒时,如“霸王龙骑着独轮车在艾菲尔塔前”。不晓得为什么,法式回绝画独轮车,取而代之的是自行车。而当我们从提醒中删除“Eifel Tower”,产生预期图像则没有任何障碍。
那些只是DALL-E 2局限性的几个例子。更令人担忧的问题素质上很复杂,可能会对公司及其用户形成严峻不良影响。
OpenAI限制DALL-E 2不创建公家人物和名人的图像。事实上,它完全回绝生成包罗实在面目面貌或实人的图像,那是朝着避免滥用该法式迈出的重要一步。
跟着DALL-E 2越来越受欢送,版权侵权也可能成为一个大问题。OpenAI对峙认为,用户“获得了将他们利用DALL-E创建的图像贸易化的全数权力,包罗转载、销售和商品化的权力。”
然而,人工智能艺术生成器依靠于阐发、进修人类艺术家的做品来创造艺术。因而,不克不及肃清潜在的进犯常识产权法的可能性,无论能否有意。
总结
DALL-E 2完美吗?做为一项正在完美的项目,谜底能否定的。
但是,正如机器进修的素质一样,跟着时间的推移,该法式正变得越来越伶俐,也越来越有才能。从纯手艺的角度来看,DALL-E 2是AI手艺演进的一猛进取。
人们普及认为人工智能系统在创意范畴现实上无法超越人类,至少不会很快。但是DALL-E 2已经使那个论点遭到了冲击。
然而虽然OpenAI已经摘取了一系列办法来揣测和避免DALL-E 2的潜在滥用,但那并不是满有把握。在没有任何道德边界的情状下能够利用的AI系统将在多久后呈现?需要我们连结警惕。
无论若何,我们都需要密切存眷那个新兴行业。因为AI艺术生成器及其背后的手艺只会在将来的岁月里变得愈加普及。
原文由Shilpa Lama撰写,中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联络我们。