AI 图像生成领域有两个极端:Midjourney 开箱即用但要付费,而且不能完全控制;Stable Diffusion 完全免费、开源、可本地部署,但要自己配环境、选模型、调参数。如果你愿意花时间搞清楚后者,它给你的自由度是 Midjourney 远远无法比的。
Stable Diffusion 是什么
Stable Diffusion 是由 Stability AI 于 2022 年 8 月开源发布的文生图模型。"开源"是它最核心的属性——模型权重完全公开,任何人都可以下载、使用、修改,也可以用自己的数据在上面继续训练(Fine-tune)。
这直接催生了一个庞大的生态:全球开发者在 Stable Diffusion 的基础上训练了数以万计的衍生模型,覆盖各种风格——写实人像、动漫、水彩、建筑、概念艺术、二次元……你能想到的风格,几乎都有人做了专门的模型发布出来,而且大多数是免费的。
Civitai 和 HuggingFace 是两个最主要的模型分享平台,前者偏向艺术风格和人物模型,后者偏向学术和通用模型。
和 Midjourney 的本质区别
理解 Stable Diffusion 最简单的方式是和 Midjourney 对比:
Midjourney: 云端服务,SaaS 订阅制,只能用官方模型,无法本地部署,输入 prompt 等待生成,价格约 $10-120/月。
Stable Diffusion: 开源模型,本地运行(或云端),可以选任意模型,可以精细调控生成过程,一次性搭好环境之后完全免费(电费除外)。
代价是:SD 的学习曲线陡峭,光是配环境就可能花几个小时,选模型和调参数是另一门功课。但一旦搞定,你有的是 Midjourney 给不了的能力。
主要使用方式
AUTOMATIC1111(WebUI)
最经典的 SD 本地界面,开源,功能极其全面。支持文生图、图生图、局部重绘(Inpainting)、高分辨率修复、各种插件扩展。
缺点是界面比较复杂,选项多到令人发懵,新手上手有难度。但网上的教程极其丰富,大多数问题都能搜到解决方案。
ComfyUI
基于节点的工作流界面,更接近专业创作工具的操作逻辑。相比 WebUI 更灵活,可以构建复杂的生成流程,专业用户和工作室更多选择这个。
上手难度比 WebUI 更高,但可定制性更强。
Stability AI 官方产品
Stability AI 也有在线产品(Stable Diffusion Online、DreamStudio),无需本地配置,按生成张数付费,适合不想折腾环境的用户。但相比本地使用,缺少了大量社区模型和扩展。
云端部署
Runpod、Vast.ai 等平台提供 GPU 云服务,可以在云端运行 SD 环境,按小时计费。对于电脑配置不够(尤其是 GPU 显存不足 6GB)的用户,这是一个折中方案。
核心功能和技术能力
ControlNet:精确控制画面结构
这是 SD 生态里最重要的扩展之一。ControlNet 允许你用参考图来控制生成图片的结构——比如:
- 用一张人物照片作为骨架参考,让 AI 按照这个姿势生成全新的人物
- 用线稿控制生成图片的轮廓
- 用深度图控制场景的空间感
- 用法线图控制光影方向
这种精确控制是 Midjourney 做不到的。设计师和插画师用它来把草图直接"渲染"成精细的成品,效率极高。
Fine-tuning:训练自己的风格模型
如果你有一批风格一致的参考图(比如你自己的插画作品),可以通过 LoRA(Low-Rank Adaptation)微调技术,用几十到几百张图训练出一个"风格模型"。训练好之后,SD 就能持续生成符合这个风格的图片。
对于有明确品牌风格需求的设计团队,这是一个非常有价值的功能——训练一次,之后生成的图都带着你的品牌风格。
局部重绘(Inpainting)
选中图片的特定区域,只对这个区域重新生成,其余部分保持不变。可以用来修复瑕疵(比如多余的手指、奇怪的背景元素),或者替换图片的某个局部内容。
图生图(img2img)
以一张图片为基础,指定"改变程度"(denoising strength),让 AI 在保留原图结构的基础上做风格转换或者内容调整。
配置要求
本地运行 SD 对硬件有一定要求:
- 显卡(GPU):NVIDIA 显卡效果最好,CUDA 支持完善。A 卡(AMD)也能跑但配置麻烦些。显存建议 8GB 以上,6GB 勉强可以跑较小的模型,4GB 以下基本不够用。
- 内存:建议 16GB 以上
- 硬盘:模型文件动辄 2-7GB,如果要存多个模型,需要足够的硬盘空间
Mac 用户(M1/M2/M3 芯片)也可以运行,社区有专门优化的版本(如 AUTOMATIC1111 的 MPS 支持),速度比 NVIDIA 慢一些但可用。
模型怎么选
这是很多新手最困惑的地方。SD 的模型生态太丰富,反而不知道从哪里开始。几个实用建议:
写实风格首选: Realistic Vision、ChilloutMix——这类模型出人像非常自然,适合做产品图、人物摄影风格的图。
插画/动漫风格: Anything V5、CounterfeitV3——二次元插画质感很好,适合做游戏原画、角色设计。
通用创意: SDXL Base(Stability AI 官方的大模型)——分辨率更高,细节更丰富,对硬件要求也更高。
搭配 LoRA: 在基础模型上叠加 LoRA,可以叠加特定的风格、特定的人物脸型、特定的艺术家风格,组合非常灵活。
谁适合用 Stable Diffusion
有技术背景的创作者: 设计师、插画师、游戏美术,有能力折腾环境,且对精确控制有需求——ControlNet、LoRA、精细的提示词调优,这些功能对专业创作者价值极大。
对数据隐私有要求的用户: 本地部署意味着图片不上传到任何云端,完全在自己的机器上处理,不用担心图片数据泄露问题。这对企业内部使用的场景尤其重要。
需要大量生成且预算有限的用户: 本地运行成本只有电费,一旦设备投入完成,生成几千张图的边际成本接近零。
想做风格定制化的团队: 用自己的数据训练 LoRA 模型,形成品牌专属的生成风格,这是商业化应用的重要方向。
不太适合的情况: 如果你只是偶尔想生成几张图,不愿意花时间配环境学习,Midjourney 或者 Adobe Firefly 的体验远比 SD 顺畅。SD 的价值在于它给了你无限的自由度,但这个自由度是有学习成本的。
总结
Stable Diffusion 代表了 AI 图像生成的另一条路:不靠订阅,靠自己折腾。它的生态之丰富、社区之活跃,在整个 AI 工具世界里都属于顶级——几乎每周都有新的模型、插件、工作流被发布出来。
如果你愿意投入时间学习,它会给你一套其他工具无法提供的定制化能力;如果你想快速出图,还是去用 Midjourney 吧。两者并不冲突,很多专业用户两个都在用。
