IBM: What is knowledge distillation? Hugging Face: Knowledge Distillation for Computer Vision Knowledge distillation Wikipedia Distilling the Knowledge in a Neural Network

Distillation / 蒸馏

Q: 先用一句话抓住它

蒸馏是把大模型的能力“提炼”给小模型，让小模型更快、更便宜、更容易部署。 生活里的类比是老师带学生。老师做题很强，学生没有老师那么多经验，但可以通过模仿老师的解题过程、判断倾向和答案分布，学到比只看标准答案更多的东西。

AI百科编辑部2025-05-104800

蒸馏在 AI 里通常指“知识蒸馏”或“模型蒸馏”，英文是 Knowledge Distillation。它的核心思路是：用一个能力更强、更大的教师模型，去指导一个更小、更轻的学生模型，让学生模型尽量学到教师模型的行为

知识蒸馏模型压缩轻量化小模型

蒸馏在 AI 里通常指“知识蒸馏”或“模型蒸馏”，英文是 Knowledge Distillation。它的核心思路是：用一个能力更强、更大的教师模型，去指导一个更小、更轻的学生模型，让学生模型尽量学到教师模型的行为。

这个词来自生活里的蒸馏比喻。蒸馏不是把原物完整搬过去，而是把其中重要的部分提炼出来。模型蒸馏也是这样：不是复制一个大模型，而是让小模型学习大模型输出里的规律。

先用一句话抓住它

蒸馏是把大模型的能力“提炼”给小模型，让小模型更快、更便宜、更容易部署。

生活里的类比是老师带学生。老师做题很强，学生没有老师那么多经验，但可以通过模仿老师的解题过程、判断倾向和答案分布，学到比只看标准答案更多的东西。

蒸馏到底怎么工作

IBM 对知识蒸馏的解释强调，它通常把训练分成教师模型和学生模型两个角色。教师模型通常更大、更强、更慢；学生模型更小、更快、更容易部署。训练时，学生不只是学习最终正确答案，也学习教师模型对不同答案的偏好。

flowchart LR
    Teacher["教师模型<br/>大而强"] --> Soft["输出分布 / 推理示例"]
    Data["训练数据"] --> Teacher
    Soft --> Student["学生模型<br/>小而快"]
    Data --> Student
    Student --> Deploy["部署到实际应用"]

比如一道题有四个选项，标准答案只告诉学生哪个是对的；教师模型的输出还可能告诉学生其他选项分别有多接近。这些“软信息”能帮助学生学到更细的判断边界。

为什么需要蒸馏

大模型通常效果更好，但运行成本高、延迟大、部署要求高。很多场景并不需要每次都调用最强模型，比如移动端应用、边缘设备、企业内部固定任务、实时客服和高并发系统。蒸馏可以把大模型的一部分能力转移到小模型上，让实际使用更快、更省。

这也解释了为什么蒸馏和本地模型、小模型、模型压缩经常一起出现。它不是为了取代所有大模型，而是为了让一些能力能以更低成本落地。

容易误解的地方

蒸馏不是无损复制。学生模型通常会变小、变快，但也可能损失一部分能力，尤其是复杂推理、长上下文和少见任务。它更像把老师的常用能力整理成便携版，而不是把老师整个人搬进小模型。

另一个误区是以为蒸馏一定合规。用什么教师模型、用什么数据、是否违反服务条款或知识产权规则，都需要认真看。技术上能做，不代表任何场景都可以做。

怎么判断它该不该用

如果你追求最高质量，直接用强模型可能更稳。如果你需要低延迟、低成本、离线部署、移动端运行或固定任务高频调用，蒸馏就值得考虑。

普通用户可以这样理解：蒸馏是在质量、速度、成本之间做取舍。它让小模型更能干，但不保证小模型变成大模型。

先用一句话抓住它

蒸馏到底怎么工作

为什么需要蒸馏

容易误解的地方

怎么判断它该不该用

资料来源