2021 年 1 月,OpenAI 放出了一组图片:牛油果形状的扶手椅、穿芭蕾舞裙遛狗的小萝卜——全部由 AI 根据一句文字描述凭空生成。这组今天看来质量平平的图,在当时引发的震动不亚于后来的 ChatGPT:"文字直接变图像"第一次从论文里的概念变成了肉眼可见的现实。这个模型叫 DALL·E——名字是超现实主义画家达利(Dalí)和皮克斯机器人瓦力(WALL·E)的合体,艺术与机器的混血,恰如其分。
整个文生图时代,某种意义上是从这把牛油果椅子开始的。
DALL·E 是什么
DALL·E 是 OpenAI 的 AI 图像生成模型系列,三代演进:DALL·E(2021,开创者)、DALL·E 2(2022,质量跃升)、DALL·E 3(2023,语义理解登顶)。如今它不再是独立产品——DALL·E 3 已完全融入 ChatGPT,你在对话里说"画一张……",背后就是它;而在更新的 GPT-4o 原生图像生成推出后,OpenAI 的图像能力进一步进化,但 DALL·E 这个名字,已经刻进了 AI 绘画的历史。
三代演进:一部文生图简史
DALL·E(2021):证明可行
120 亿参数,GPT-3 的图像化表亲。生成质量以今天标准看很粗糙,但它回答了那个根本问题:神经网络能否理解"文字概念的组合"并画出来?牛油果椅子说:能。
DALL·E 2(2022):质量革命与黄金年代
扩散模型加持,分辨率和真实感大幅跃升,首创的 Inpainting(局部重绘)——框选图片一角,用文字描述改写内容——定义了后来所有工具的标配功能。2022 年上半年,拿到 DALL·E 2 内测资格是科技圈的社交货币。
但同年 Midjourney 走红、Stable Diffusion 开源,文生图瞬间从独角戏变成三国杀——DALL·E 2 开创了时代,却没能独占时代。
DALL·E 3(2023):换一个维度取胜
面对 MJ 的美学碾压,OpenAI 的回应是扬长避短:不拼艺术感,拼理解力。DALL·E 3 处理长而复杂的描述的精确度断档领先——"戴圆眼镜的老人坐在左边的红椅子上,右手举着写有'OPEN'字样的木牌,背景是雨夜的霓虹街道"——每个细节都被忠实执行,这在当时的 MJ 那里是不可能完成的任务。图内文字渲染(海报上的英文标题拼写正确)是另一张王牌。
更聪明的是入口:直接长进 ChatGPT,让全球最大的 AI 用户池顺手就能画图。
核心特点
对话式生图体验
这是 DALL·E 路线最独特的遗产:在 ChatGPT 里用聊天的方式画图和改图——"背景换成黄昏""人物再年轻一点",AI 理解修改意图重新生成,无需重写完整提示词。相比 Midjourney 的参数咒语,这种交互对普通人的友好度是降维的。ChatGPT 还会自动帮你把简单描述扩写成丰富提示词,新手的出图下限被直接抬高。
指令遵循的精确性
复杂构图、多元素关系、指定文字——"听话"是 DALL·E 3 的立身之本,需要精确控制画面内容的场景(信息图、有具体要求的插图)里,它常是比 MJ 更省力的选择。
严格的内容安全
真实人物、暴力色情、版权风格的拒绝生成,OpenAI 的审核是业内最严之列——合规场景的优点,创作自由派的痛点,一体两面。
与竞品的历史对位
vs Midjourney:美学与氛围 MJ 长期称王,艺术创作、概念图、视觉冲击力的需求找它;DALL·E 3 赢在理解精确和文字渲染,以及 ChatGPT 的零门槛入口。"好看"选 MJ,"听话"选 DALL·E,是那个时代用户的通用心法。
vs Stable Diffusion:开源生态的自由度(本地部署、LoRA、ControlNet)是 SD 的不可替代;DALL·E 是省心的托管服务,两者是"折腾换控制"与"花钱换省事"的经典对照。
vs 后来者(GPT-4o 原生生图、Flux 等):技术迭代从未停步,GPT-4o 的原生多模态生图在一致性和编辑能力上又进一步——DALL·E 作为独立品牌正逐渐功成身退,但它定义的"对话式生图"范式被完整继承。
今天还值得用吗
实用建议按入口给:
有 ChatGPT Plus 的用户:直接在对话里画,这是当前体验 OpenAI 图像能力(DALL·E 3 及其后继)最顺的方式,适合配图、海报、需要精确执行描述的场景。
免费用户:微软 Copilot(基于 DALL·E 3 的 Image Creator)提供每日免费额度,是零成本使用这一能力的后门。
API 开发者:OpenAI 图像 API 按张计费,把生图能力嵌进自己产品的标准路径。
追求极致美学或深度定制者:前者去 Midjourney,后者去 SD/Flux 生态——术业有专攻,DALL·E 从来不是全能王。
价格
ChatGPT Plus($20/月)内含生图额度;API 按图计费(不同分辨率不同价格);Copilot/Bing Image Creator 免费可用每日额度。具体以 OpenAI 官网为准。
DALL·E 在 AI 绘画史上的位置,类似福特 T 型车之于汽车业:未必是今天路上最好的那辆,但整条路是它最早铺的。理解了它的三代演进,就理解了文生图技术从奇观到日用品的全过程——而那把牛油果扶手椅,值得在 AI 史册里永远占一页。
