如果你在设计圈或内容创作圈混过一段时间，Midjourney 这个名字基本不会陌生。它不是那种"体验一下就算了"的工具，而是真的让很多人改变了工作流程的那种。从最早的 V4 到现在的 V7，踩了不少坑，也摸出了一些规律，这篇文章就是把这些经验整理出来，给还没入门或者刚刚开始用的人参考。

它到底是什么

Midjourney 是一个基于 AI 的图像生成工具，你输入一段文字描述（也就是提示词，prompt），它会生成对应的图片。听起来很简单，但实际上它的出图质量在所有同类产品里一直处于第一梯队——尤其在艺术风格、光影质感、画面构图这些方面，很多专业设计师也承认它出来的东西"肉眼可见地好看"。

它目前主要通过 Discord 使用，也推出了独立的网页版（midjourney.com），界面更直观，适合不熟悉 Discord 的用户。V7 版本之后，网页端体验已经相当完整。

Midjourney 是一家独立公司，没有大厂背景，创始人 David Holz 之前做过 Leap Motion。公司规模不大（据说全职员工不到 50 人），但产品影响力极大——这本身就说明了一些问题。

V7 带来了什么变化

V7 是截至 2025 年的最新主要版本，相比 V6 有几个体感明显的升级：

人物一致性更稳定。 以前生成同一个人物的多张图，脸部细节经常漂移，V7 引入了更强的角色引用机制，只要你把参考图设置好，同一张脸在不同场景里的稳定性高了很多。对做漫画、故事板、品牌形象的人来说，这个改进是实质性的。

细节和真实感提升。 皮肤纹理、布料褶皱、金属反光，V7 的处理比 V6 细腻了一个档次。尤其是写实风格的人像，很多图乍一看真的以为是照片。

理解长描述的能力变强了。 V6 的时候，如果你的 prompt 太长太复杂，模型经常"选择性忽略"某些元素。V7 对复杂描述的还原度更高，多个元素的共存处理明显更稳。

提示词怎么写才有效

这是很多人刚开始用时最挫败的地方——随手打几个词，出来的图要么平庸，要么根本不是你想要的。提示词是有技巧的，但也不用想得太玄乎。

结构化思路：主体 + 环境 + 风格 + 技术参数

比如你想要一张城市夜景：

a lone figure walking on a rainy Tokyo street at night, neon reflections on wet pavement, cinematic lighting, shot on 35mm film, shallow depth of field, photorealistic --ar 16:9 --v 7

拆解一下：

主体：a lone figure walking on a rainy Tokyo street at night
光影/环境：neon reflections on wet pavement, cinematic lighting
风格：shot on 35mm film, shallow depth of field, photorealistic
参数：--ar 16:9（横版比例）、--v 7（指定版本）

中文描述行不行？ 可以用，但效果普遍比英文差一些。它见过的英文 prompt 远多于中文，所以英文描述出来的图在细节还原上通常更准。如果英文不好，可以用 ChatGPT 帮你把中文需求优化成英文 prompt，这是很多人的实际做法。

常用参数说明：

--ar：图片比例，如 --ar 16:9（横版）、--ar 9:16（竖版/手机壁纸）、--ar 1:1（方形）
--v 7：指定最新模型版本
--chaos：随机性，0-100，数字越高每次出图差异越大，适合探索风格
--no：排除元素，--no text, watermark, extra fingers 减少常见翻车
--style raw：减少 AI 自动美化，更忠实于你的描述
--iw：图片参考权重，0.5~2 之间，配合参考图使用

适合什么人用

设计师和插画师： 快速出概念草图、风格参考、客户提案的视觉初稿，效率提升是实打实的。以前跟客户对风格要半天，现在当场生成三四种方向，直接选。品牌设计、包装设计、海报创作都是高频使用场景。

内容创作者： 做公众号、小红书、YouTube 封面，需要大量配图但没有专职设计的情况下，Midjourney 是最高性价比的解决方案。

游戏和影视从业者： 概念设计阶段用来快速验证视觉方向，不少独立游戏开发者直接用它出角色和场景素材，也有影视制作用它来做分镜参考、美术概念验证。

摄影师： 用来做前期视觉规划，构思拍摄场景和光影效果，也有人用它生成合成背景。

完全不懂设计的普通人： 只要愿意花时间摸索 prompt，做出好看图片的门槛并不高。但如果你想要非常精确的定制效果，还是需要一定的学习投入。

和竞品比怎么样

vs DALL-E 3（ChatGPT 内置）： DALL-E 3 中文理解好、对话流程顺畅，生成带文字的图片更准确。但出图的艺术感和风格化程度远不如 Midjourney，更"正确"但更"无聊"，对审美有要求的人很难满足。

vs Stable Diffusion： SD 完全免费、开源、可本地部署，适合有技术能力的用户深度定制。但学习曲线陡峭，光是配环境就能劝退一大批人，出图质量高度依赖你用的模型和工作流。Midjourney 胜在开箱即用、稳定性好，不需要任何技术背景。

vs Adobe Firefly： Firefly 商用版权清晰（完全用授权数据训练），适合有版权顾虑的商业场景，且与 PS 等 Adobe 工具深度集成。但在出图质量和风格多样性上，目前还是弱一截。

vs 国内产品（即梦、通义万象）： 近两年进步很快，中文理解是优势，价格也便宜，人物生成不错。但在整体美学质感和风格化能力上，跟 Midjourney 还有差距，主要差在"那种说不清楚但肉眼能分辨的品味"。

订阅价格

Midjourney 没有永久免费计划，需要付费订阅（美元计价）：

基础版（Basic）：约 $10/月，200 张快速出图/月
标准版（Standard）：约 $30/月，无限出图（慢速模式），快速出图 15 小时/月
专业版（Pro）：约 $60/月，快速出图 30 小时/月，支持隐身模式（图片不出现在公共画廊）
大型版（Mega）：约 $120/月，快速出图 60 小时/月，重度商业用途

关于商业版权：专业版及以上用户（或年收入超过 100 万美元的企业）才有完整的商业使用权。用于商业项目，务必看清楚订阅条款。

如果只是偶尔玩玩，基础版够了。如果是设计工作的生产力工具，标准版的成本相比它能节省的人力来说很划算——一个外包设计稿动辄几百几千，而 Midjourney 帮你搞定初稿和灵感参考，省的时间远不止这点月费。

实际使用注意事项

版权问题要小心。 不要在 prompt 里写具体在世艺术家名字来模仿风格，这在法律上是灰色地带。可以描述风格特征，比如"油画风格，厚涂笔触，暖色调"。

生成的图先检查细节再用。 手指、文字、镜面反射、远处人群这些地方经常出错。V7 对手指的处理有明显改善，但放大确认没问题再用是好习惯。

善用"Vary (Subtle)"功能。 某张图大体不错但有些地方想调整，用轻微变体功能，而不是重新跑 prompt，能保留你喜欢的部分同时做微调。"Vary (Region)"可以局部修改指定区域。

多出几批再选。 每次出四张，同样的 prompt 跑十次可能有两三次出彩，剩下的都平平无奇，这很正常。不要因为第一批没有满意的就放弃，调整描述多跑几次。

收藏好用的 prompt，建自己的提示词库。 好的 prompt 是积累出来的，哪些词汇组合出你满意的结果，记下来下次还能用。

入门建议

从网页版（midjourney.com）开始，界面比 Discord 直观很多。

第一次不要追求"完美"，先随便描述一个你想看到的画面，感受一下它的能力范围。然后从别人的 prompt 里学习——Midjourney 的公共画廊里能看到其他用户的作品和对应的 prompt，这是最快的学习方式。

花一个小时摸索，大部分人都能开始做出自己满意的图。真正精通需要时间，但入门真的不难。

Midjourney 目前仍然是 AI 图像生成领域的标杆产品，学习曲线不陡但有深度，花时间研究 prompt 的人和随手打几个词的人，出图效果会差距悬殊。如果你的工作或创作涉及视觉内容，值得认真学一下。