智谱GLM-5.1全测评：开源拿下SWE-Bench Pro全球第一，代价是什么

4月7日，智谱（Z.ai）发布了GLM-5.1。

发布公告措辞克制，但数字很刺眼：SWE-Bench Pro全球第一，分数58.4，超过Claude Opus 4.6的57.3和GPT-5.4。一个开源模型，在最硬核的编程agent基准上，第一次超过了所有闭源模型。

消息传开后，量化社区的几位CUDA专家在14小时内公开了他们的岗位变动——不是段子，是真事。

但「全球第一」这四个字，需要加一个问号。

这篇文章会告诉你：GLM-5.1的第一，是在什么条件下成立的，它在哪里确实很强，在哪里仍然有差距，以及对开发者和行业意味着什么。

一、先把基本参数说清楚

GLM-5.1不是一个全新模型，是GLM-5基础模型的post-training强化版本，专门针对编程和agent任务做了深度优化。

核心规格：

项目	数值
总参数量	744B（MoE架构）
每次推理激活参数	40B
上下文窗口	200K tokens
最大输出长度	128K tokens
开源协议	MIT（可商用）
发布平台	HuggingFace / ModelScope / GitHub

744B是总参数，推理时只激活40B——这是MoE（混合专家）架构的特点，推理成本远低于同量级的Dense模型。可以理解为：它有一支744B规模的专家团队，但每次工作只调动40B规模的专家上场。

有一个细节值得单独说：整个GLM-5家族全部使用华为昇腾910B芯片 + MindSpore框架训练，零NVIDIA GPU参与。这不是偶然——智谱自2025年1月被列入美国实体清单后，已无法合法购买英伟达数据中心GPU。这次训练结果证明，国产算力路线在旗舰模型训练上已具备可行性，虽然成本和效率与H100集群的差距仍需时间量化。

二、编程能力：第一这个帽子，戴得稳吗？

GLM-5.1最核心的宣传点是：SWE-Bench Pro全球第一。

SWE-Bench Pro是SWE-Bench系列中难度最高的版本，测的是模型解决真实GitHub issue的能力——给你一个代码库、一个bug报告，你能不能自主找到问题、写出patch、通过测试。

SWE-Bench Pro核心分数对比：

模型	SWE-Bench Pro	SWE-Bench Verified
GLM-5.1	58.4	77.8%
Claude Opus 4.6	57.3	80.8%
GPT-5.4	55.1	74.9%
Gemini 3.1 Pro	54.6	80.6%
DeepSeek V4	49.3	71.2%
Qwen3.6-Plus	47.8	69.5%

GLM-5.1在SWE-Bench Pro上的第一是真实的，不是水分。58.4 vs 57.3，差距不大，但确实领先。

但这里有一个重要的上下文：

SWE-Bench Pro不等于「编程能力综合全球第一」。

如果把SWE-Bench Pro、Terminal-Bench 2.0（终端工程任务）、NL2Repo（从自然语言生成整个代码库）三个基准合并计算综合得分：

模型	综合编程得分
Claude Opus 4.6	57.5
Gemini 3.1 Pro	56.8
GLM-5.1	54.9（开源第一）
GPT-5.4	53.2

综合排名，GLM-5.1是全球第三，开源第一。

这个区别很重要：GLM-5.1是开源模型中编程能力最强的，在SWE-Bench Pro单项上超过所有闭源模型，但在综合编程能力上仍略落后于Claude Opus 4.6和Gemini 3.1 Pro。

另外两项具体数据：

Terminal-Bench 2.0：63.5%（测试在终端环境下完成工程任务的能力）
NL2Repo：42.7%（从需求描述生成完整代码仓库）
CyberGym：68.7%（网络安全工程任务）

三、长程任务：这才是真正的突破点

比SWE-Bench Pro第一更有实质意义的，是GLM-5.1实现的「8小时持续工作」能力。

这不是一个营销概念，是可验证的工程能力指标。

传统模型交互是「一问一答」或「短任务」模式，任务通常在几分钟内完成。长程任务要求模型做到四件事：

接受复杂的多步骤任务，自主规划执行路径
执行途中遇到障碍，自主调整策略
识别当前方法的收益瓶颈，主动切换到结构性不同的方案
在没有人类干预的情况下，持续推进直到交付

GLM-5.1的关键技术实现是「Slime」框架，基于异步智能体强化学习（Async Agent RL），让模型能够从长程交互中持续学习，而不只是优化单轮响应质量。

一个公开的演示案例：向量数据库优化任务中，模型在固定策略内做增量调优，当收益趋于停滞时，主动分析benchmark日志、定位瓶颈，然后跳转到结构性不同的方案——从全库扫描到IVF分桶，从单精度到量化粗排，从单层路由到两级剪枝。全程无人干预，持续超过8小时。

目前能达到这个水平的模型，全球只有Claude Opus 4.6和GLM-5.1。GPT-5.4和Gemini 3.1 Pro在这个维度上尚未发布可对比的数据。

四、推理与通识能力：没有塌陷，但有明显差距

GLM-5.1定位是「编程和agent旗舰」，推理和通识不是核心宣传点，但仍需有基本水位。

基准	GLM-5.1	Claude Opus 4.6	Gemini 3.1 Pro	GPT-5.4
AIME 2026	95.3%	96.1%	97.2%	95.8%
GPQA Diamond	86.2%	88.9%	94.3%	87.5%

AIME 2026（竞赛数学）的95.3%是扎实的一流分数，与GPT-5.4基本持平。GPQA Diamond（专业科学问题）的86.2%则与Gemini 3.1 Pro有约8个百分点的差距——在跨学科科学推理上，这个差距不可忽视。

结论：GLM-5.1的推理能力属于第一梯队，但在专业科学领域仍落后于Gemini，这是它目前最明显的短板。

五、多模态能力：GLM-5.1本身是纯文本模型

这里需要澄清一个常见误解：GLM-5.1本身只支持文本输入，不具备多模态能力。

智谱的多模态旗舰是另一个产品：GLM-5V-Turbo。它基于相同的744B MoE底座，但额外整合了新一代CogViT视觉编码器，支持图像、视频、文本的原生处理。

GLM-5V-Turbo主要能力：

图像理解与OCR
设计稿/UI截图 → 可运行前端代码（从设计到实现的完整还原）
视频时序理解（帧后插入时间索引token，增强定位能力）
几何与空间感知

目前GLM-5V-Turbo的完整多模态基准横评数据尚未发布，因此无法给出与GPT-5.4 Vision、Gemini 3.1 Pro的精确对比数字。从已公开的UI→代码演示来看，视觉编程场景表现突出；但在通用多模态理解方面，Gemini 3.1 Pro目前仍是公认的领先者。

六、国内横评：在中文AI生态里处于什么位置

国内主流模型综合横评（BenchLM 2026-04）：

模型	综合评分	编程优势	推理优势	Agent能力
GLM-5.1	84	SWE-Bench Pro全球#1	AIME 95.3%	8小时长程任务
Qwen3.6-Plus	81	SWE-Bench 69.5%	GPQA 90.4%	MCP工具调用强
Kimi K2.5	72	编程强	推理稳	长文本优势
DeepSeek V4	65	工程编程稳	推理中等	价格极低

GLM-5.1 vs Qwen3.6-Plus，是目前国内最接近的对手竞争。Qwen在专业知识（GPQA 90.4 vs 86.2）和工具调用生态（MCP-Atlas 74.1 vs 71.8）更强；GLM-5.1在长程工程任务和SWE-Bench编程上领先。

GLM-5.1 vs DeepSeek V4，编程和agent能力GLM明显领先，但价格差3倍以上。DeepSeek仍是性价比极高的选择，适合高并发、成本敏感的场景。

七、价格信号：涨价10%说明什么

API定价对比（2026-04，美元/百万token）：

模型	输入	输出
GLM-5.1	$0.95	$3.15
Claude Opus 4.6	$15	$75
Claude Sonnet 4.6	$3	$15
GPT-5.4	$10	$30
Gemini 3.1 Pro	$3.5	$10.5
Qwen3.6-Plus	$1.2	$4.8
DeepSeek V4	$0.28	$1.12

GLM-5.1比Claude Opus 4.6便宜93%，比Gemini 3.1 Pro便宜约70%，输出价格已接近Claude Sonnet 4.6。涨价是一个明确的定位信号：智谱不再用低价竞争，而是在「接近旗舰能力、中端定价」这个区间站稳脚跟。

八、一个需要单独说的方法论细节

GLM-5.1在SWE-Bench Pro上的第一，是在Scaffold（agent脚手架框架）加持下测出来的——模型配合了专门设计的agent框架完成任务，而非裸模型直接作答。

这在业界是通行做法，OpenAI、Anthropic的模型参与测试时同样使用了类似框架。但这意味着：如果你直接调用API而不搭建对应的agent工程框架，实际体验到的编程能力会低于基准数字。

GLM-5.1真正的竞争力，在于它是目前最适合被封装进agent工程管道的开源模型——长上下文、长任务持续能力、强代码生成，三者在开源范围内尚无对手。基准数字只是入场券，真正的价值在工程集成之后才能释放。

我的判断

GLM-5.1值得认真对待，但有两个「第一」需要区分清楚：

✅ 这个第一成立：开源模型编程能力全球第一。SWE-Bench Pro单项超越所有闭源模型，综合编程基准国内和开源领域均排第一。8小时长程自主工作能力，与Claude Opus 4.6并列全球两强。全程华为昇腾训练，是国产算力路线的一次重要验证。

⚠️ 这个第一不成立：全球综合最强编程模型。Claude Opus 4.6和Gemini 3.1 Pro在综合编程得分上仍小幅领先。专业科学推理（GPQA Diamond）有约8个百分点的差距。多模态能力数据不完整，无法与Gemini旗舰做全面对比。

对开发者的实际建议：如果你需要在agent工程管道里跑长程编程任务，GLM-5.1是目前开源范围内唯一同时满足「能力」和「可部署」两个条件的选择。如果你的场景是通用助手或多模态任务，Gemini 3.1 Pro或Claude系列仍是更稳妥的选择。

GLM-5.1的发布，标志着开源模型在编程agent这个具体场景上，第一次在关键基准上与闭源旗舰持平甚至超越。这不是「全面赶上」，但也不是噱头。

边界，在真实地移动。

数据来源：SWE-Bench官方排行榜 / BenchLM 2026-04 / Z.ai官方文档 / MarkTechPost / 量子位 / 智源社区 / IT之家 / Pandaily。数据截止2026年4月14日。

一、先把基本参数说清楚#

二、编程能力：第一这个帽子，戴得稳吗？#

三、长程任务：这才是真正的突破点#

四、推理与通识能力：没有塌陷，但有明显差距#

五、多模态能力：GLM-5.1本身是纯文本模型#

六、国内横评：在中文AI生态里处于什么位置#

七、价格信号：涨价10%说明什么#

八、一个需要单独说的方法论细节#

我的判断#