Midjourney

目前最强的AI绘画工具

热度AI绘画免费额度
Midjourney 预览

如果你在设计圈或内容创作圈混过一段时间,Midjourney 这个名字基本不会陌生。它不是那种"体验一下就算了"的工具,而是真的让很多人改变了工作流程的那种。从最早的 V4 到现在的 V7,踩了不少坑,也摸出了一些规律,这篇文章就是把这些经验整理出来,给还没入门或者刚刚开始用的人参考。

它到底是什么

Midjourney 是一个基于 AI 的图像生成工具,你输入一段文字描述(也就是提示词,prompt),它会生成对应的图片。听起来很简单,但实际上它的出图质量在所有同类产品里一直处于第一梯队——尤其在艺术风格、光影质感、画面构图这些方面,很多专业设计师也承认它出来的东西"肉眼可见地好看"。

它目前主要通过 Discord 使用,也推出了独立的网页版(midjourney.com),界面更直观,适合不熟悉 Discord 的用户。V7 版本之后,网页端体验已经相当完整。

Midjourney 是一家独立公司,没有大厂背景,创始人 David Holz 之前做过 Leap Motion。公司规模不大(据说全职员工不到 50 人),但产品影响力极大——这本身就说明了一些问题。

V7 带来了什么变化

V7 是截至 2025 年的最新主要版本,相比 V6 有几个体感明显的升级:

人物一致性更稳定。 以前生成同一个人物的多张图,脸部细节经常漂移,V7 引入了更强的角色引用机制,只要你把参考图设置好,同一张脸在不同场景里的稳定性高了很多。对做漫画、故事板、品牌形象的人来说,这个改进是实质性的。

细节和真实感提升。 皮肤纹理、布料褶皱、金属反光,V7 的处理比 V6 细腻了一个档次。尤其是写实风格的人像,很多图乍一看真的以为是照片。

理解长描述的能力变强了。 V6 的时候,如果你的 prompt 太长太复杂,模型经常"选择性忽略"某些元素。V7 对复杂描述的还原度更高,多个元素的共存处理明显更稳。

提示词怎么写才有效

这是很多人刚开始用时最挫败的地方——随手打几个词,出来的图要么平庸,要么根本不是你想要的。提示词是有技巧的,但也不用想得太玄乎。

结构化思路:主体 + 环境 + 风格 + 技术参数

比如你想要一张城市夜景:

a lone figure walking on a rainy Tokyo street at night, neon reflections on wet pavement, cinematic lighting, shot on 35mm film, shallow depth of field, photorealistic --ar 16:9 --v 7

拆解一下:

  • 主体:a lone figure walking on a rainy Tokyo street at night
  • 光影/环境:neon reflections on wet pavement, cinematic lighting
  • 风格:shot on 35mm film, shallow depth of field, photorealistic
  • 参数:--ar 16:9(横版比例)、--v 7(指定版本)

中文描述行不行? 可以用,但效果普遍比英文差一些。它见过的英文 prompt 远多于中文,所以英文描述出来的图在细节还原上通常更准。如果英文不好,可以用 ChatGPT 帮你把中文需求优化成英文 prompt,这是很多人的实际做法。

常用参数说明:

  • --ar:图片比例,如 --ar 16:9(横版)、--ar 9:16(竖版/手机壁纸)、--ar 1:1(方形)
  • --v 7:指定最新模型版本
  • --chaos:随机性,0-100,数字越高每次出图差异越大,适合探索风格
  • --no:排除元素,--no text, watermark, extra fingers 减少常见翻车
  • --style raw:减少 AI 自动美化,更忠实于你的描述
  • --iw:图片参考权重,0.5~2 之间,配合参考图使用

适合什么人用

设计师和插画师: 快速出概念草图、风格参考、客户提案的视觉初稿,效率提升是实打实的。以前跟客户对风格要半天,现在当场生成三四种方向,直接选。品牌设计、包装设计、海报创作都是高频使用场景。

内容创作者: 做公众号、小红书、YouTube 封面,需要大量配图但没有专职设计的情况下,Midjourney 是最高性价比的解决方案。

游戏和影视从业者: 概念设计阶段用来快速验证视觉方向,不少独立游戏开发者直接用它出角色和场景素材,也有影视制作用它来做分镜参考、美术概念验证。

摄影师: 用来做前期视觉规划,构思拍摄场景和光影效果,也有人用它生成合成背景。

完全不懂设计的普通人: 只要愿意花时间摸索 prompt,做出好看图片的门槛并不高。但如果你想要非常精确的定制效果,还是需要一定的学习投入。

和竞品比怎么样

vs DALL-E 3(ChatGPT 内置): DALL-E 3 中文理解好、对话流程顺畅,生成带文字的图片更准确。但出图的艺术感和风格化程度远不如 Midjourney,更"正确"但更"无聊",对审美有要求的人很难满足。

vs Stable Diffusion: SD 完全免费、开源、可本地部署,适合有技术能力的用户深度定制。但学习曲线陡峭,光是配环境就能劝退一大批人,出图质量高度依赖你用的模型和工作流。Midjourney 胜在开箱即用、稳定性好,不需要任何技术背景。

vs Adobe Firefly: Firefly 商用版权清晰(完全用授权数据训练),适合有版权顾虑的商业场景,且与 PS 等 Adobe 工具深度集成。但在出图质量和风格多样性上,目前还是弱一截。

vs 国内产品(即梦、通义万象): 近两年进步很快,中文理解是优势,价格也便宜,人物生成不错。但在整体美学质感和风格化能力上,跟 Midjourney 还有差距,主要差在"那种说不清楚但肉眼能分辨的品味"。

订阅价格

Midjourney 没有永久免费计划,需要付费订阅(美元计价):

  • 基础版(Basic):约 $10/月,200 张快速出图/月
  • 标准版(Standard):约 $30/月,无限出图(慢速模式),快速出图 15 小时/月
  • 专业版(Pro):约 $60/月,快速出图 30 小时/月,支持隐身模式(图片不出现在公共画廊)
  • 大型版(Mega):约 $120/月,快速出图 60 小时/月,重度商业用途

关于商业版权:专业版及以上用户(或年收入超过 100 万美元的企业)才有完整的商业使用权。用于商业项目,务必看清楚订阅条款。

如果只是偶尔玩玩,基础版够了。如果是设计工作的生产力工具,标准版的成本相比它能节省的人力来说很划算——一个外包设计稿动辄几百几千,而 Midjourney 帮你搞定初稿和灵感参考,省的时间远不止这点月费。

实际使用注意事项

版权问题要小心。 不要在 prompt 里写具体在世艺术家名字来模仿风格,这在法律上是灰色地带。可以描述风格特征,比如"油画风格,厚涂笔触,暖色调"。

生成的图先检查细节再用。 手指、文字、镜面反射、远处人群这些地方经常出错。V7 对手指的处理有明显改善,但放大确认没问题再用是好习惯。

善用"Vary (Subtle)"功能。 某张图大体不错但有些地方想调整,用轻微变体功能,而不是重新跑 prompt,能保留你喜欢的部分同时做微调。"Vary (Region)"可以局部修改指定区域。

多出几批再选。 每次出四张,同样的 prompt 跑十次可能有两三次出彩,剩下的都平平无奇,这很正常。不要因为第一批没有满意的就放弃,调整描述多跑几次。

收藏好用的 prompt,建自己的提示词库。 好的 prompt 是积累出来的,哪些词汇组合出你满意的结果,记下来下次还能用。

入门建议

从网页版(midjourney.com)开始,界面比 Discord 直观很多。

第一次不要追求"完美",先随便描述一个你想看到的画面,感受一下它的能力范围。然后从别人的 prompt 里学习——Midjourney 的公共画廊里能看到其他用户的作品和对应的 prompt,这是最快的学习方式。

花一个小时摸索,大部分人都能开始做出自己满意的图。真正精通需要时间,但入门真的不难。

Midjourney 目前仍然是 AI 图像生成领域的标杆产品,学习曲线不陡但有深度,花时间研究 prompt 的人和随手打几个词的人,出图效果会差距悬殊。如果你的工作或创作涉及视觉内容,值得认真学一下。