DeepSeek 本地部署全攻略：蒸馏版怎么装、满血版怎么用、显卡怎么选

AI文章编辑部2026-07-01DeepSeek本地部署Ollama显卡私有化

讲清楚本地能跑的 DeepSeek 到底是哪个版本、需要多大显存、用 Ollama 和 LM Studio 怎么装，以及什么时候该老老实实用官网或 API 的满血版。附显卡选择、量化取舍和常见报错排查。

很多人搜「DeepSeek 本地部署」，心里想的是把那个跑分很高的满血模型搬到自己电脑上，断网也能用。先说结论：你家用电脑能本地跑的，几乎都是蒸馏版（参数小很多的精简模型），真正的满血 671B 那一档，没有一堆专业显卡根本带不动。这篇就把这件事说透——哪个版本你能本地跑、要多大显存、怎么装、什么情况下别折腾本地直接用官网，省得你装了半天发现跑出来的东西不如手机上直接打开网页。

先搞清楚：你到底要本地跑哪个版本

DeepSeek 对外放出的模型有好几档，体量差得很远。一类是完整的大参数模型，能力最强，但动辄几百 GB，需要多卡服务器，普通人碰不到；另一类是蒸馏出来的小模型，参数从一两 B 到三十多 B 不等，是为了能在消费级硬件上跑而做的精简版。你在自己笔记本或台式机上装的，基本都是后者。

这两者不是一个东西，能力差距也别幻想。蒸馏版日常问答、整理文本、本地写点东西够用，但遇到复杂推理、长文档、专业代码，它和满血版不在一个水平。所以装之前先问自己：我要本地，是图隐私（数据不上传）、图断网能用、还是图省 API 钱？如果只是想用最强的 DeepSeek，那根本不用部署，打开官网或调 API 就是满血版，又快又准。把需求想明白，能省掉一大半无用功。

第二步：按显存挑你能跑的尺寸

本地跑大模型，最硬的门槛是显存（VRAM），不是 CPU 也不是内存。一个粗略的对照：7B 到 8B 的模型，量化之后大概需要 6～8GB 显存，一张中端游戏显卡就能跑；14B 这一档要 10～12GB；32B 想跑得顺，基本得 24GB 显存的卡。显存不够会怎样？要么直接加载失败，要么把一部分丢给内存和 CPU 跑，速度慢到一个字一个字往外蹦，体验极差。

没有独立显卡也不是完全不能玩。苹果的 M 系列芯片靠统一内存，跑中小模型表现意外地好，内存大的机型甚至能带动更大的模型。纯 CPU 也能跑，但只建议拿 1.5B 这种最小的尝个鲜，正经用别指望。一句话：先查清楚自己显卡有多少显存，再决定下载哪个尺寸，别一上来就奔着 32B 去。

第三步：用 Ollama 或 LM Studio 装起来

工具上，新手我推荐两条路。怕命令行的，用 LM Studio，它是带界面的桌面软件，在里面搜 DeepSeek 的蒸馏模型，点下载，下完直接在聊天框里用，跟用网页版差不多。喜欢清爽、想接到别的程序里的，用 Ollama，装好之后一行命令就能拉模型起对话，它还自带一个本地接口，方便后面接知识库或自己的小工具。

装的时候有个关键选择叫量化（quantization）。同一个模型会有好几个量化版本，数字越低体积越小、显存占用越少，但精度也越低。对大多数人，选中间档（常见的是 Q4 这一类）是体积和质量的平衡点，显存特别紧张再往下降。下载前看一眼文件大小，心里对显存够不够有个数，比下完才发现跑不动强。

第四步：跑起来之后做点正经事

模型能对话，只是第一步。本地部署真正的价值在于把它接到你自己的资料上。Ollama 起的本地接口可以接像 AnythingLLM、Dify 这类工具，把你的 PDF、笔记、内部文档喂进去做问答，全程数据不出本机，这才是本地相比直接用网页的核心优势——敏感资料不上传第三方。

用的时候放平心态。蒸馏版会答错、会一本正经地胡说，尤其涉及数字、时间和专业判断时，别拿它的输出当定论。它适合干的是：整理一段杂乱文字、把会议记录提成要点、本地草拟一封邮件、就你私有文档里有明确答案的问题做检索式问答。把它当成一个不联网、嘴严但偶尔会犯迷糊的助手，用对场景就值了。

常见坑与排查

最常见的坑是「装完发现很慢」。九成是显存不够，模型被迫跑到内存里了。解决办法是换更小的尺寸或更低的量化，别硬撑大模型。第二个坑是「下载半天连不上」，国内拉模型源经常慢或断，提前配好镜像或换网络环境能省很多事。第三个坑是「以为本地版有满血版的水平」，然后到处说 DeepSeek 不行——你跑的是蒸馏版，拿它和满血比不公平。第四个坑是「显卡驱动没装对」，跑起来不吃显卡反而吃 CPU，装之前确认显卡驱动和对应的计算环境是齐的。遇到报错，先把错误信息原样复制去搜，本地部署的报错九成都有人踩过。

什么时候别折腾本地，直接用满血

说句实在话，大部分人其实不需要本地部署。如果你要的是 DeepSeek 最强的能力，官网网页版和官方 API 用的就是满血模型，响应快、不占你的硬件、不用维护，写代码、复杂分析这些本地版吃力的活它都更稳。本地部署只在三种情况下真正划算：数据极度敏感、绝对不能上传；要在没网的环境里用；或者要高频、大批量调用，自己算下来本地比按量付费的 API 更省。

所以最务实的组合往往是：日常和重活用官网或 API 的满血版，把本地蒸馏版留给「处理隐私文件」「断网应急」这类特定场景。先想清楚自己属于哪一类，再决定要不要花一下午装环境。把工具用在刀刃上，比追求「全都跑在自己机器上」这种执念实在得多。