AI 图像生成领域有两个极端：Midjourney 开箱即用但要付费，而且不能完全控制；Stable Diffusion 完全免费、开源、可本地部署，但要自己配环境、选模型、调参数。如果你愿意花时间搞清楚后者，它给你的自由度是 Midjourney 远远无法比的。

Stable Diffusion 是什么

Stable Diffusion 是由 Stability AI 于 2022 年 8 月开源发布的文生图模型。"开源"是它最核心的属性——模型权重完全公开，任何人都可以下载、使用、修改，也可以用自己的数据在上面继续训练（Fine-tune）。

这直接催生了一个庞大的生态：全球开发者在 Stable Diffusion 的基础上训练了数以万计的衍生模型，覆盖各种风格——写实人像、动漫、水彩、建筑、概念艺术、二次元……你能想到的风格，几乎都有人做了专门的模型发布出来，而且大多数是免费的。

Civitai 和 HuggingFace 是两个最主要的模型分享平台，前者偏向艺术风格和人物模型，后者偏向学术和通用模型。

和 Midjourney 的本质区别

理解 Stable Diffusion 最简单的方式是和 Midjourney 对比：

Midjourney： 云端服务，SaaS 订阅制，只能用官方模型，无法本地部署，输入 prompt 等待生成，价格约 $10-120/月。

Stable Diffusion： 开源模型，本地运行（或云端），可以选任意模型，可以精细调控生成过程，一次性搭好环境之后完全免费（电费除外）。

代价是：SD 的学习曲线陡峭，光是配环境就可能花几个小时，选模型和调参数是另一门功课。但一旦搞定，你有的是 Midjourney 给不了的能力。

主要使用方式

AUTOMATIC1111（WebUI）

最经典的 SD 本地界面，开源，功能极其全面。支持文生图、图生图、局部重绘（Inpainting）、高分辨率修复、各种插件扩展。

缺点是界面比较复杂，选项多到令人发懵，新手上手有难度。但网上的教程极其丰富，大多数问题都能搜到解决方案。

ComfyUI

基于节点的工作流界面，更接近专业创作工具的操作逻辑。相比 WebUI 更灵活，可以构建复杂的生成流程，专业用户和工作室更多选择这个。

上手难度比 WebUI 更高，但可定制性更强。

Stability AI 官方产品

Stability AI 也有在线产品（Stable Diffusion Online、DreamStudio），无需本地配置，按生成张数付费，适合不想折腾环境的用户。但相比本地使用，缺少了大量社区模型和扩展。

云端部署

Runpod、Vast.ai 等平台提供 GPU 云服务，可以在云端运行 SD 环境，按小时计费。对于电脑配置不够（尤其是 GPU 显存不足 6GB）的用户，这是一个折中方案。

核心功能和技术能力

ControlNet：精确控制画面结构

这是 SD 生态里最重要的扩展之一。ControlNet 允许你用参考图来控制生成图片的结构——比如：

用一张人物照片作为骨架参考，让 AI 按照这个姿势生成全新的人物
用线稿控制生成图片的轮廓
用深度图控制场景的空间感
用法线图控制光影方向

这种精确控制是 Midjourney 做不到的。设计师和插画师用它来把草图直接"渲染"成精细的成品，效率极高。

Fine-tuning：训练自己的风格模型

如果你有一批风格一致的参考图（比如你自己的插画作品），可以通过 LoRA（Low-Rank Adaptation）微调技术，用几十到几百张图训练出一个"风格模型"。训练好之后，SD 就能持续生成符合这个风格的图片。

对于有明确品牌风格需求的设计团队，这是一个非常有价值的功能——训练一次，之后生成的图都带着你的品牌风格。

局部重绘（Inpainting）

选中图片的特定区域，只对这个区域重新生成，其余部分保持不变。可以用来修复瑕疵（比如多余的手指、奇怪的背景元素），或者替换图片的某个局部内容。

图生图（img2img）

以一张图片为基础，指定"改变程度"（denoising strength），让 AI 在保留原图结构的基础上做风格转换或者内容调整。

配置要求

本地运行 SD 对硬件有一定要求：

显卡（GPU）：NVIDIA 显卡效果最好，CUDA 支持完善。A 卡（AMD）也能跑但配置麻烦些。显存建议 8GB 以上，6GB 勉强可以跑较小的模型，4GB 以下基本不够用。
内存：建议 16GB 以上
硬盘：模型文件动辄 2-7GB，如果要存多个模型，需要足够的硬盘空间

Mac 用户（M1/M2/M3 芯片）也可以运行，社区有专门优化的版本（如 AUTOMATIC1111 的 MPS 支持），速度比 NVIDIA 慢一些但可用。

模型怎么选

这是很多新手最困惑的地方。SD 的模型生态太丰富，反而不知道从哪里开始。几个实用建议：

写实风格首选： Realistic Vision、ChilloutMix——这类模型出人像非常自然，适合做产品图、人物摄影风格的图。

插画/动漫风格： Anything V5、CounterfeitV3——二次元插画质感很好，适合做游戏原画、角色设计。

通用创意： SDXL Base（Stability AI 官方的大模型）——分辨率更高，细节更丰富，对硬件要求也更高。

搭配 LoRA： 在基础模型上叠加 LoRA，可以叠加特定的风格、特定的人物脸型、特定的艺术家风格，组合非常灵活。

谁适合用 Stable Diffusion

有技术背景的创作者： 设计师、插画师、游戏美术，有能力折腾环境，且对精确控制有需求——ControlNet、LoRA、精细的提示词调优，这些功能对专业创作者价值极大。

对数据隐私有要求的用户： 本地部署意味着图片不上传到任何云端，完全在自己的机器上处理，不用担心图片数据泄露问题。这对企业内部使用的场景尤其重要。

需要大量生成且预算有限的用户： 本地运行成本只有电费，一旦设备投入完成，生成几千张图的边际成本接近零。

想做风格定制化的团队： 用自己的数据训练 LoRA 模型，形成品牌专属的生成风格，这是商业化应用的重要方向。

不太适合的情况： 如果你只是偶尔想生成几张图，不愿意花时间配环境学习，Midjourney 或者 Adobe Firefly 的体验远比 SD 顺畅。SD 的价值在于它给了你无限的自由度，但这个自由度是有学习成本的。

总结

Stable Diffusion 代表了 AI 图像生成的另一条路：不靠订阅，靠自己折腾。它的生态之丰富、社区之活跃，在整个 AI 工具世界里都属于顶级——几乎每周都有新的模型、插件、工作流被发布出来。

如果你愿意投入时间学习，它会给你一套其他工具无法提供的定制化能力；如果你想快速出图，还是去用 Midjourney 吧。两者并不冲突，很多专业用户两个都在用。