AI 绘画圈有一个典型的困境：你在网上看到一张用 AI 生成的图，效果非常棒，但不知道对方用了什么提示词。或者你有一张喜欢的参考图，想让 AI 生成类似风格的图，但不知道该怎么描述这个风格。CLIP Interrogator 是为了解决这个问题而设计的工具：把图片输入进去，它分析图片的视觉内容和风格，输出一段描述这张图的提示词（Prompt）。

CLIP Interrogator 是什么

CLIP Interrogator 是一个基于 CLIP（Contrastive Language-Image Pre-training，OpenAI 开发的视觉-语言模型）的图像反向分析工具。它做的事情和 AI 绘画相反：AI 绘画是从文字生成图片，CLIP Interrogator 是从图片推断文字——分析图像中包含什么内容、什么风格、什么视觉特征，并生成对应的描述性提示词。

原始项目由开发者 pharmapsychotic 开发，开源在 GitHub，可以在 Hugging Face Spaces、Replicate 等平台直接在线使用，不需要本地部署。

工作原理

CLIP 模型学习了大量图像-文字对，可以计算一张图片和各种文字描述之间的相似度。CLIP Interrogator 利用这个能力，给定一张图片，从一个巨大的关键词库（包括各种艺术家名字、风格词汇、摄影术语、质量词汇等）中找出与这张图片最匹配的词汇组合，输出成一段结构化的提示词。

输出的提示词结构通常是：主体描述 + 风格词 + 艺术家风格 + 质量词 + 技术参数词的组合，这和 Stable Diffusion 的提示词写法高度吻合。

主要使用场景

逆向工程喜欢的图 这是最常见的使用场景。你在 Civitai、ArtStation 或者 Pinterest 看到一张很棒的 AI 生成图，不知道提示词是什么，就把图片放进 CLIP Interrogator 分析，得到一段描述这张图的提示词，用来生成类似风格的图片。

值得注意：分析结果不是"原始提示词"，而是 CLIP 对这张图内容的理解和描述。用分析结果复现原图，结果会相似但不会完全一样，因为 AI 生成本身有随机性，而且不同模型和参数也影响结果。

学习提示词结构 对于想学习怎么写好 Prompt 的人，CLIP Interrogator 是一个很好的教材工具。把各种不同风格的图片分析一遍，观察输出的提示词结构，能帮助理解什么类型的词汇对应什么视觉效果。

找到不知道名字的艺术风格 你喜欢某种艺术风格，能看出来，但不知道叫什么名字、对应哪些关键词。上传一张这个风格的图片，CLIP Interrogator 的输出里通常会包含相关的艺术家名字或者风格词汇，帮助你"认识"这个风格。

图生图的提示词辅助 在 Stable Diffusion 里做图生图（img2img）时，需要输入提示词描述目标方向，用 CLIP Interrogator 分析参考图得到提示词，是一个快速生成图生图提示词的方法。

可用的模型版本

CLIP Interrogator 有不同的模型选项，影响分析的侧重点：

CLIP + BLIP：结合了 CLIP 的风格分析和 BLIP（Bootstrapping Language-Image Pre-training）的内容描述，输出更全面，既描述图片内容也包含风格关键词。

CLIP only：纯用 CLIP 分析，输出更多风格和艺术家相关的词汇，适合想获取风格提示词的场景。

不同版本对同一张图的分析侧重不同，可以都试试，对比输出结果选用更合适的。

实际效果和局限性

CLIP Interrogator 的分析结果对风格词汇的识别相对准确，特别是知名艺术家风格、经典绘画流派、常见的图像风格词（写实、动漫、水彩等），通常能给出有参考价值的词汇。

但它有几个明显的局限性：

不总是准确：CLIP 模型的理解基于训练数据，对于不常见的风格或者风格的细微变化，可能给出不准确或者不相关的词汇。

关键词库有时过时：输出结果依赖预置的关键词库，如果新出现的艺术家或者风格词汇没有在库里，就不会出现在输出中。

不能还原原始提示词：这是最常见的误解。CLIP Interrogator 分析的是图片的视觉内容，而不是知道"这张图是用什么 Prompt 生成的"——后者在图片本身里是不可见的信息。分析结果和原始 Prompt 通常只是相似，不会相同。

针对 SD 优化：输出的提示词格式更适合 Stable Diffusion，不一定完全适用于 Midjourney 的提示词语法。

和其他工具的比较

vs 其他反向 Prompt 工具：市面上有一些类似功能的工具，比如 img2prompt、WD14-Tagger（专门针对动漫图像的标签提取）等；CLIP Interrogator 在综合风格识别上有一定优势，WD14-Tagger 对动漫图像的标签提取更准确。

vs 直接问 ChatGPT/Claude 分析图片：把图片上传给 ChatGPT 或 Claude，让它"描述这张图片并推荐用于 SD 的提示词"，这个方法在很多情况下效果也不错，特别是对图片内容的描述；CLIP Interrogator 的优势是对 SD 关键词体系（特别是艺术家名字、质量词汇）更熟悉。

如何使用

最方便的方式是通过 Hugging Face Spaces 或者 Replicate 在线使用，不需要注册复杂账号，上传图片即可分析。

Replicate 需要注册账号，有免费额度；Hugging Face Spaces 的公共版本可能有队列等待，耐心等一会儿就好。

也可以克隆项目在本地运行，有 Python 和 GPU 的用户可以获得更快的响应速度。

CLIP Interrogator 是 AI 绘画工具箱里一个技巧性工具，不是每天都用，但在特定场景下——"我喜欢这张图的风格，我想复现类似效果"——它提供了一个很实用的起点。学会用它来分析喜欢的图，是提升 Prompt 能力的一个有效路径。