本地部署大模型完整指南

本文系统梳理本地部署大语言模型（LLM）的完整流程，涵盖工具选型、模型选择、硬件门槛、与 API 调用的核心差异，以及对 Agent 工作流（如 OpenCode、Cline、Aider）的支持情况。
数据时效：2026-04。当前开源模型已全面转向 MoE（混合专家）架构——总参数决定显存需求，激活参数决定推理速度，两者必须分开理解，不可混为一谈。

一、为什么要本地部署？

动机	说明
数据隐私	代码、文档、对话不出本机，适合处理敏感内容
无网络依赖	断网或网络受限环境下正常工作
零边际成本	硬件投入一次，后续推理不产生 token 费用
低延迟	消除网络 RTT，本地小模型响应极快
可控性	自定义系统提示、量化精度、上下文长度
学习目的	深入理解模型推理机制

二、本地部署框架选型

2.1 Ollama（入门首选）

官网： https://ollama.com | 平台： macOS / Linux / Windows（原生）

Ollama 是目前生态最完善的本地推理框架，一行命令拉取并运行主流模型，模型库已收录 4500+ 个模型。

ollama run qwen3:8b           # 通用对话
ollama run glm-4.7-flash      # 智谱 GLM，代理/代码任务
ollama run gemma4:9b          # 多模态，支持图像输入
ollama run qwen2.5-coder:14b  # 代码开发
ollama serve                  # 后台 API 服务模式
ollama list                   # 查看已下载模型

核心特点：

内置 REST API（http://localhost:11434），兼容 OpenAI 格式
支持 CUDA / Metal（Apple Silicon）/ ROCm / Vulkan 加速
主流新模型通常 day-0 上线

⚠️ GLM-4.7 / GLM-4.7-Flash 注意：模型已上架 Ollama，但部分用户反馈存在 chat template 兼容问题。如遇乱输出，优先改用 LM Studio 或 llama.cpp（均完全支持）。

2.2 LM Studio（GUI 首选）

官网： https://lmstudio.ai | 平台： macOS / Windows / Linux

面向非技术用户的图形界面工具，内置 GGUF 模型搜索与下载，集成 Chat UI 和本地服务器。GLM-4.7 系列在此运行最稳定。

2.3 llama.cpp（底层高性能）

仓库： https://github.com/ggerganov/llama.cpp

C++ 纯推理引擎，是 Ollama / LM Studio 的底层基础。支持 CPU 纯推理，GGUF 格式，极致压缩内存，是 GLM-4.7-Flash GGUF 的官方推荐运行方式。

./llama-cli -m ./glm-4.7-flash.gguf -p "你好" --tool-call-parser glm47 -n 512

2.4 其他选项

框架	特点	适用场景
Jan	开源桌面客户端，界面美观	日常对话
Open WebUI	类 ChatGPT Web 界面，对接 Ollama	团队/局域网共享
vLLM	高吞吐量生产级推理，支持 MoE、FP8	服务器部署、并发请求
SGLang	2026 高性能推理引擎	生产级高并发
Xinference	多模型并发，RESTful API	多模型管理

三、可选模型一览（2026 年 4 月）

⚠️ 重要区分： 本节区分"可本地部署（消费级/专业级硬件）“和"仅适合云端/集群"的模型，避免误导实操选型。

3.1 通用推理 / 对话模型

模型	来源	架构	本地可行性	推荐规格	特点
Qwen3.5	阿里	MoE (397B/17B)	✅ 高配可用	122B Q4 (~60GB)	LM Arena 中国榜首（全球第五），中文顶级
Mistral Small 4	Mistral	稠密 24B	✅ 单卡可用	24B Q4 (~14GB)	256K 上下文，工具调用稳定
Gemma 4	Google	多规格 MoE	✅ 极友好	见下方详表	256K 上下文，多模态，day-0 Ollama 支持
GLM-4.7-Flash	智谱	MoE (30B/3B)	✅ 极友好	Q4 (~5–6GB)	200K 上下文，Agent 原生，详见 §3.4
Llama 4	Meta	MoE (671B/37B)	⚠️ 需高配	70B 蒸馏 Q4 (~40GB)	超越 GPT-4.5，128K 上下文
DeepSeek-V3.2	DeepSeek	MoE (~671B/37B)	⚠️ 需高配	蒸馏版本可用	MIT 许可，商业友好，媲美 GPT-5
DeepSeek-R1	DeepSeek	MoE (671B/37B)	✅ 蒸馏版	32B / 14B Q4	强推理链，蒸馏小版本性价比高
GLM-5 / GLM-5.1	智谱	MoE (744B/40B)	❌ 集群专用	FP8 需 860GB 显存	综合榜第一/第二，本地需多张 H100，建议调 API
Kimi K2.5	Moonshot	MoE (1T/32B)	❌ 集群专用	—	原生多模态 Agent，调 API 更合适
MiniMax M2.5	MiniMax	MoE (229B/10B)	❌ 集群专用	—	2026.02 开源，效率高，调 API 更合适

Gemma 4 各规格详解（本地最友好，Google 出品）：

规格	有效参数	VRAM	运行设备
E2B	2.3B effective	< 1.5 GB	手机 / 树莓派
E4B	4.5B effective	~3 GB	8GB 内存笔记本
26B MoE (A4B)	3.8B active / 26B total	~18 GB Q4	RTX 3090 / 4090
31B Dense	31B	~17 GB Q4	RTX 4090 / 5090 量化可用

3.2 代码专用模型

模型	架构	VRAM (Q4)	上下文	特点
Qwen3-Coder-Next ⭐	MoE (80B/3B)	~45 GB	256K	本地最强代码模型，媲美 Claude Sonnet 4.5；Ollama 已上架
GLM-4.7-Flash ⭐	MoE (30B/3B)	~5–6 GB	200K	性价比之王：6GB 显存跑 200K 上下文，Agent 原生，HumanEval 媲美 30B+ 稠密模型
Qwen2.5-Coder	稠密	14B: ~8 GB / 32B: ~18 GB	128K	依然优秀，HumanEval 7B 版 88.4%，Apache 2.0
DeepSeek-Coder-V2	MoE (236B/21B)	~130 GB	128K	代码推理突出，需高配
GLM-5.1	MoE (744B/40B)	❌ 860GB FP8	200K	SWE-bench Pro 第一，仅云端可用

3.3 轻量 / 边缘模型（低配设备首选）

模型	规格	VRAM	特点
Gemma 4 E2B	2.3B effective	< 1.5 GB	手机级，256K 上下文
Gemma 4 E4B	4.5B effective	~3 GB	8GB 笔记本可用，多模态
GLM-4.7-Flash Q4	30B total / 3B active	~5–6 GB	仅 6GB 显存获得 200K 上下文 + Agent 原生能力
Phi-4-mini	3.8B 稠密	~4 GB	数理推理出色
Qwen3.5 1.5B / 3B	稠密	1–3 GB	中文效果好
SmolLM2	1.7B / 360M	1–2 GB	HuggingFace 出品，极轻量

3.4 GLM-4.7-Flash 专项说明

GLM-4.7-Flash 是智谱 AI（Z.AI）于 2026 年 1 月发布的本地部署最值得关注的新模型之一，核心卖点：

特性	数值	意义
架构	MoE (30B total / 3B active)	速度接近 3B 稠密模型
Q4_K_M 显存	~5–6 GB	RTX 4060（8GB）即可流畅运行
上下文	200K tokens	超大代码库分析
推理速度	120–220 tok/s（RTX 4090）	媲美 API 响应速度
Agent 模式	“Preserved Thinking”	多轮工具调用时保持推理链，减少幻觉
工具调用	原生支持	适合 Cline / Continue / OpenCode
许可证	MIT	完全商业可用

部署方式（推荐优先级）：

# 方式一：LM Studio（最稳定，推荐）
# 搜索 glm-4.7-flash，下载 Q4_K_M 量化版

# 方式二：llama.cpp（官方推荐 GGUF 运行方式）
./llama-cli -m ./glm-4.7-flash-q4_k_m.gguf --tool-call-parser glm47 -n 512

# 方式三：Ollama（已上架，部分用户报告 chat template 兼容问题）
ollama run glm-4.7-flash

四、硬件要求详解

4.1 量化精度速查

量化精度	每参数字节数	说明
FP16 / BF16	2 字节	全精度，效果最好
Q8_0	1 字节	轻微精度损失，推荐
Q4_K_M	~0.5 字节	主流平衡方案
Q2_K	~0.25 字节	极度压缩，质量明显下降

稠密模型显存速查（MoE 模型以总参数量计算显存，以激活参数量估算速度）：

参数量	FP16	Q4_K_M	Q2_K
3B	~6 GB	~2 GB	~1 GB
7B	~14 GB	~4 GB	~2 GB
14B	~28 GB	~8 GB	~4 GB
32B	~64 GB	~18 GB	~9 GB
70B	~140 GB	~40 GB	~20 GB

4.2 GPU 推理显存门槛

显存规格	可运行模型（Q4_K_M）	典型显卡（2026）
4–6 GB	Gemma 4 E4B / Phi-4-mini	RTX 4060
6–8 GB	GLM-4.7-Flash（200K，Agent 原生）/ Qwen3.5 7B	RTX 4060 Ti
10–12 GB	14B 稠密 Q4 / GLM-4.7-Flash Q8	RTX 3060 12G / 4070
16 GB	14B Q8 / Mistral Small 4 Q4（24B，256K）	RTX 4080
24 GB	32B Q4 / Gemma 4 26B MoE Q4 / Qwen3-Coder-Next 部分层	RTX 3090 / 4090
32 GB	32B Q8 / Qwen3.5 中型 MoE Q4	RTX 5090（32GB GDDR7）
48 GB	70B Q4 / Qwen3.5 122B MoE Q4	RTX 6000 Ada
80 GB	Llama 4 蒸馏 / Qwen3.5 397B MoE Q2	H100 / A100
集群 (860GB+)	GLM-5 / GLM-5.1 全精度	H100 × 8+

Apple Silicon 说明： M 系列统一内存 CPU/GPU 共享，Metal 加速效果出色：
M4 Pro 48GB → Qwen3.5 32B Q4 / Mistral Small 4 流畅
M3/M4 Max 96–128GB → Qwen3-Coder-Next 80B MoE Q4 / Llama 4 70B Q4

4.3 CPU 推理（无 GPU 方案）

内存规格	可用模型	实际体验
8 GB	GLM-4.7-Flash Q4 / Gemma 4 E4B	约 2–5 tok/s，可用
16 GB	14B Q4	约 1–3 tok/s，慢但可用
32 GB	32B Q4	约 0.5–1 tok/s，较慢
64 GB	70B Q4	极慢，不推荐

MoE 模型 CPU 推理优势：GLM-4.7-Flash（3B active）在 CPU 上速度远快于同等显存消耗的 7B 稠密模型。

4.4 存储要求

7B Q4 ≈ 4–5 GB；GLM-4.7-Flash Q4 ≈ 5–6 GB；32B Q4 ≈ 18–20 GB；70B Q4 ≈ 40–45 GB
超大 MoE 模型（Qwen3.5 397B Q4 ≈ 200+ GB）需要大容量专用存储
推荐 NVMe SSD，模型加载速度与磁盘 I/O 直接相关

五、Ollama 完整部署流程（以 Windows 为例）

第一步：安装 Ollama

访问 https://ollama.com/download 下载安装包，安装后作为系统服务运行。

ollama --version  # 验证安装

第二步：下载并运行模型

# ── 通用对话 ───────────────────────────────────────────
ollama run qwen3:8b               # 中文通用，约 5 GB

# ── 代码 + Agent（核心推荐）──────────────────────────
ollama run glm-4.7-flash          # 智谱，200K 上下文，~5 GB，Agent 原生
                                  # ⚠️ 如遇异常改用 LM Studio
ollama run qwen2.5-coder:14b      # 阿里代码模型，约 8 GB
ollama run qwen3-coder-next:q4_K_M  # 旗舰代码，约 45 GB，需高配

# ── 推理任务 ──────────────────────────────────────────
ollama run deepseek-r1:14b        # 推理链，约 8 GB

# ── 多模态 ────────────────────────────────────────────
ollama run gemma4:9b              # 图像 + 文本，约 6 GB

# ── 轻量/低配 ─────────────────────────────────────────
ollama run gemma4:e4b             # 3 GB，笔记本可用

# 浏览全部模型：https://ollama.com/library

第三步：配置 GPU 加速

ollama ps  # GPU 列显示 "100%" 表示完全 GPU 推理

若 GPU 未被识别：

确认安装最新 NVIDIA 驱动（CUDA 12.x+）
设置 OLLAMA_GPU_LAYERS=999 强制全 GPU

第四步：配置为 API 服务

Ollama 默认监听 http://localhost:11434，暴露 OpenAI 兼容接口：

# OpenAI 兼容格式（适配大多数 Agent 工具）
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.7-flash",
    "messages": [{"role": "user", "content": "帮我写一个快速排序"}]
  }'

第五步：配置 Open WebUI（可选）

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main
# 访问 http://localhost:3000

六、本地部署 vs. 调用云端 API

6.1 综合对比

维度	本地部署	云端 API
数据隐私	✅ 数据不出本机	⚠️ 数据上传服务商
成本结构	一次性硬件，后续零成本	按 token 计费
顶级模型	GLM-5/5.1 本地不可行，需接受能力折中	可用 GLM-5.1、GPT-5、Claude 4 等全量模型
本地可用最强	GLM-4.7-Flash / Qwen3-Coder-Next / Qwen3.5	—
速度	GPU 无网络延迟；CPU 较慢	网络延迟 + 排队
稳定性	硬件稳定则高可用	依赖服务商 SLA
可控性	完全控制参数、Modelfile	受服务商政策限制
上下文	GLM-4.7-Flash 200K / Gemma 4 / Mistral Small 4 256K	最高 1M tokens
多模态	Gemma 4 系列支持图像	GPT-4V / Gemini 3 成熟
适合场景	私密内容、离线、高频低成本	顶级能力需求、低频、不便部署

6.2 2026 年能力格局

GLM-5 / GLM-5.1：综合排行榜 #1/#2，本地不可行（860 GB VRAM），建议调用智谱 API
Qwen3.5-Max：LM Arena 全球第五，高配本地可用（122B MoE Q4 ~60GB）
GLM-4.7-Flash：本地能力最亮眼的新星，6GB 显存实现 200K 上下文 + Agent 原生
Gemma 4 31B：单卡 17GB Q4，GPT-4 级能力，85 tok/s，极具性价比

结论： 日常开发/写作本地 6–24GB 显存已够用（GLM-4.7-Flash / Qwen2.5-Coder 14B）；需要 GLM-5.1 级别能力，调 API 更务实。

6.3 成本临界点估算

硬件投入	每日 API 等效费用	回本周期（参考）
RTX 4060 8GB（~¥3,000）	GLM-4.7-Flash 同等质量 API ~¥30/天	~3 个月
RTX 4090 24GB（~¥15,000）	Qwen3.5 32B 级 API ~¥100/天	~5 个月
RTX 5090 32GB（~¥25,000+）	Qwen3.5 122B 级 API ~¥200/天	~4 个月

七、本地模型对 Agent 工作流的支持

7.1 Agent 对模型的核心要求

工具调用（Function Calling）：必须支持结构化 JSON 工具调用
长上下文：代码 Agent 常需 32K–200K tokens
指令遵循：严格按格式输出
推理能力：复杂任务分解与规划
多轮稳定性：多步工具调用不丢失上下文

7.2 代码 Agent 模型推荐（2026 最新）

配置等级	推荐模型	VRAM	上下文	实际体验
旗舰	Qwen3-Coder-Next 80B MoE Q4	~45 GB	256K	媲美 Claude Sonnet 4.5，Ollama 已上架
高配	Qwen2.5-Coder 32B Q4	~18 GB	128K	接近 GPT-4o 代码能力
推荐	Qwen2.5-Coder 14B Q8	~16 GB	128K	优秀，日常够用
性价比之王 ⭐	GLM-4.7-Flash Q4	~5–6 GB	200K	超低显存获得超长上下文 + Agent 原生；“Preserved Thinking” 模式多轮推理不断链
多模态	Gemma 4 26B MoE Q4	~18 GB	256K	支持图像输入，适合 UI 相关开发
轻量	Gemma 4 E4B	~3 GB	256K	低配设备可用

7.3 通用 Agent / 工作流

推荐模型	规格	说明
Qwen3.5 122B MoE	Q4 (~60GB)	2026 最强中文通用 Agent
GLM-4.7-Flash	Q4 (~5–6GB)	工具调用强，200K，Agent 专项优化
Gemma 4 26B MoE	Q4 (~18GB)	256K，多模态，单卡可用
Mistral Small 4	24B Q4 (~14GB)	256K，工具调用稳定，欧洲出品
DeepSeek-R1 32B	Q4 (~18GB)	推理链任务首选

7.4 Ollama 对接 Agent 工具配置

Cline（VS Code 插件）： 选择 “Ollama” 作为 Provider，填入模型名称，例如 glm-4.7-flash 或 qwen2.5-coder:14b。

Continue.dev（.continue/config.json）：

{
  "models": [
    {
      "title": "GLM-4.7-Flash（性价比首选）",
      "provider": "ollama",
      "model": "glm-4.7-flash"
    },
    {
      "title": "Qwen3-Coder-Next（旗舰）",
      "provider": "ollama",
      "model": "qwen3-coder-next:q4_K_M"
    },
    {
      "title": "Qwen2.5-Coder 14B（备用）",
      "provider": "ollama",
      "model": "qwen2.5-coder:14b"
    }
  ]
}

OpenCode / Aider：

{
  "model": {
    "provider": "ollama",
    "id": "glm-4.7-flash",
    "base_url": "http://localhost:11434"
  }
}

7.5 本地模型 Agent 的局限性

工具调用稳定性：7B 稠密模型以下格式容易出错；GLM-4.7-Flash 虽仅 3B active，但 Agent 原生训练，稳定性优于同显存稠密模型
顶级 Agent 任务：GLM-5.1 在 SWE-bench Pro / Terminal Bench 排名第一，但本地不可用；复杂跨仓库重构仍推荐云端 API
量化损失：Q2_K 精度下工具调用出错率显著升高，建议 Agent 任务最低使用 Q4_K_M

八、进阶配置与优化

8.1 Modelfile 自定义（Ollama）

FROM glm-4.7-flash

SYSTEM """
你是一名专业的 Python 开发专家，擅长代码审查和调试。
回答时优先给出可运行代码示例，并说明关键逻辑。
"""

PARAMETER temperature 0.2
PARAMETER top_p 0.9
PARAMETER num_ctx 65536

ollama create my-glm-coder -f ./Modelfile
ollama run my-glm-coder

8.2 关键推理参数

参数	说明	推荐值
`temperature`	越低越确定	代码 / Agent：0.1–0.2；对话：0.7
`top_p`	采样概率阈值	0.9
`num_ctx`	上下文窗口（tokens）	按 VRAM 尽量调大；GLM-4.7-Flash 可设 64K–128K
`num_gpu`	GPU 层数	-1（全部放 GPU）
`repeat_penalty`	重复惩罚	1.1

8.3 多 GPU / 性能优化

export OLLAMA_GPU_LAYERS=999        # 所有层放 GPU
export OLLAMA_NUM_PARALLEL=4        # 并发请求数
export OLLAMA_MAX_LOADED_MODELS=3   # 内存中保留模型数

# 查看实时推理速度
ollama run glm-4.7-flash --verbose

九、常见问题排查

问题	原因	解决方案
GLM-4.7 Ollama 输出乱码 / 格式错误	chat template 兼容性问题	改用 LM Studio 或 llama.cpp（加 `--tool-call-parser glm47`）
模型加载极慢	磁盘 I/O 瓶颈	将模型移至 NVMe SSD
GPU 未被识别	驱动版本过旧	更新 NVIDIA 驱动（CUDA 12.x+）
MoE 模型速度慢	VRAM 不足，部分层溢出到 CPU	确保 VRAM 能容纳全部参数
工具调用格式出错	模型能力不足	升级到 GLM-4.7-Flash 或 14B+ 模型；降低 temperature
上下文溢出	num_ctx 过小	调大 num_ctx（注意 VRAM 上限）
Ollama 服务未启动	服务未运行	`ollama serve` 或重启 Ollama 应用

十、快速选型指南（2026 年 4 月）

你的 GPU 显存是多少？
│
├─ < 6 GB VRAM
│   └─ 通用/代码 → Gemma 4 E4B（~3GB，多模态，256K）
│                   或 Phi-4-mini（~4GB，数理推理）
│
├─ 6–8 GB VRAM  ← 强烈推荐 GLM-4.7-Flash
│   ├─ 代码/Agent → GLM-4.7-Flash Q4（~5–6GB，200K 上下文，Agent 原生）
│   └─ 通用对话  → Qwen3.5 7B / Gemma 4 E4B
│
├─ 12–16 GB VRAM
│   ├─ 代码任务  → Qwen2.5-Coder 14B Q8（~16GB）
│   ├─ 通用对话  → Mistral Small 4 Q4（24B，256K，~14GB）
│   └─ 推理任务  → DeepSeek-R1 14B Q4（~8GB）
│
├─ 24 GB VRAM（RTX 3090 / 4090）
│   ├─ 代码任务  → Qwen2.5-Coder 32B Q4（~18GB）
│   ├─ 通用对话  → Gemma 4 26B MoE Q4（~18GB，多模态，256K）
│   └─ 推理任务  → DeepSeek-R1 32B Q4（~18GB）
│
├─ 32 GB VRAM（RTX 5090）
│   ├─ 通用/代码 → Qwen3.5 32B Q8（~32GB）
│   └─ 高质量   → Llama 4 70B MoE Q2（激活 37B）
│
├─ 双卡 / 48GB+（3090×2 / A6000）
│   └─ 旗舰     → Qwen3.5 122B MoE Q4 / Qwen3-Coder-Next 80B MoE Q4
│
└─ Apple Silicon
    ├─ M4 Pro 48GB  → Mistral Small 4 / Qwen3.5 32B Q4
    ├─ M3/M4 Max 96GB → Qwen3-Coder-Next 80B MoE Q4 / Llama 4 70B Q4
    └─ M2/M3 Ultra 192GB → Qwen3.5 397B MoE Q4（旗舰体验）

⚠️ GLM-5 / GLM-5.1 / Kimi K2.5 / MiniMax M2.5：
   综合排行前列，但本地部署需 860GB+ 显存，建议直接调 API。

本地部署大模型完整指南#

一、为什么要本地部署？#

二、本地部署框架选型#

2.1 Ollama（入门首选）#

2.2 LM Studio（GUI 首选）#

2.3 llama.cpp（底层高性能）#

2.4 其他选项#

三、可选模型一览（2026 年 4 月）#

3.1 通用推理 / 对话模型#

3.2 代码专用模型#

3.3 轻量 / 边缘模型（低配设备首选）#

3.4 GLM-4.7-Flash 专项说明#

四、硬件要求详解#

4.1 量化精度速查#

4.2 GPU 推理显存门槛#

4.3 CPU 推理（无 GPU 方案）#

4.4 存储要求#

五、Ollama 完整部署流程（以 Windows 为例）#

第一步：安装 Ollama#

第二步：下载并运行模型#

第三步：配置 GPU 加速#

第四步：配置为 API 服务#

第五步：配置 Open WebUI（可选）#

六、本地部署 vs. 调用云端 API#

6.1 综合对比#

6.2 2026 年能力格局#

6.3 成本临界点估算#

七、本地模型对 Agent 工作流的支持#

7.1 Agent 对模型的核心要求#

7.2 代码 Agent 模型推荐（2026 最新）#

7.3 通用 Agent / 工作流#

7.4 Ollama 对接 Agent 工具配置#

7.5 本地模型 Agent 的局限性#

八、进阶配置与优化#

8.1 Modelfile 自定义（Ollama）#

8.2 关键推理参数#

8.3 多 GPU / 性能优化#

九、常见问题排查#

十、快速选型指南（2026 年 4 月）#

参考资源#