4月7日,智谱(Z.ai)发布了GLM-5.1。
发布公告措辞克制,但数字很刺眼:SWE-Bench Pro全球第一,分数58.4,超过Claude Opus 4.6的57.3和GPT-5.4。一个开源模型,在最硬核的编程agent基准上,第一次超过了所有闭源模型。
消息传开后,量化社区的几位CUDA专家在14小时内公开了他们的岗位变动——不是段子,是真事。
但「全球第一」这四个字,需要加一个问号。
这篇文章会告诉你:GLM-5.1的第一,是在什么条件下成立的,它在哪里确实很强,在哪里仍然有差距,以及对开发者和行业意味着什么。
一、先把基本参数说清楚
GLM-5.1不是一个全新模型,是GLM-5基础模型的post-training强化版本,专门针对编程和agent任务做了深度优化。
核心规格:
| 项目 | 数值 |
|---|---|
| 总参数量 | 744B(MoE架构) |
| 每次推理激活参数 | 40B |
| 上下文窗口 | 200K tokens |
| 最大输出长度 | 128K tokens |
| 开源协议 | MIT(可商用) |
| 发布平台 | HuggingFace / ModelScope / GitHub |
744B是总参数,推理时只激活40B——这是MoE(混合专家)架构的特点,推理成本远低于同量级的Dense模型。可以理解为:它有一支744B规模的专家团队,但每次工作只调动40B规模的专家上场。
有一个细节值得单独说:整个GLM-5家族全部使用华为昇腾910B芯片 + MindSpore框架训练,零NVIDIA GPU参与。这不是偶然——智谱自2025年1月被列入美国实体清单后,已无法合法购买英伟达数据中心GPU。这次训练结果证明,国产算力路线在旗舰模型训练上已具备可行性,虽然成本和效率与H100集群的差距仍需时间量化。
二、编程能力:第一这个帽子,戴得稳吗?
GLM-5.1最核心的宣传点是:SWE-Bench Pro全球第一。
SWE-Bench Pro是SWE-Bench系列中难度最高的版本,测的是模型解决真实GitHub issue的能力——给你一个代码库、一个bug报告,你能不能自主找到问题、写出patch、通过测试。
SWE-Bench Pro核心分数对比:
| 模型 | SWE-Bench Pro | SWE-Bench Verified |
|---|---|---|
| GLM-5.1 | 58.4 | 77.8% |
| Claude Opus 4.6 | 57.3 | 80.8% |
| GPT-5.4 | 55.1 | 74.9% |
| Gemini 3.1 Pro | 54.6 | 80.6% |
| DeepSeek V4 | 49.3 | 71.2% |
| Qwen3.6-Plus | 47.8 | 69.5% |
GLM-5.1在SWE-Bench Pro上的第一是真实的,不是水分。58.4 vs 57.3,差距不大,但确实领先。
但这里有一个重要的上下文:
SWE-Bench Pro不等于「编程能力综合全球第一」。
如果把SWE-Bench Pro、Terminal-Bench 2.0(终端工程任务)、NL2Repo(从自然语言生成整个代码库)三个基准合并计算综合得分:
| 模型 | 综合编程得分 |
|---|---|
| Claude Opus 4.6 | 57.5 |
| Gemini 3.1 Pro | 56.8 |
| GLM-5.1 | 54.9(开源第一) |
| GPT-5.4 | 53.2 |
综合排名,GLM-5.1是全球第三,开源第一。
这个区别很重要:GLM-5.1是开源模型中编程能力最强的,在SWE-Bench Pro单项上超过所有闭源模型,但在综合编程能力上仍略落后于Claude Opus 4.6和Gemini 3.1 Pro。
另外两项具体数据:
- Terminal-Bench 2.0:63.5%(测试在终端环境下完成工程任务的能力)
- NL2Repo:42.7%(从需求描述生成完整代码仓库)
- CyberGym:68.7%(网络安全工程任务)
三、长程任务:这才是真正的突破点
比SWE-Bench Pro第一更有实质意义的,是GLM-5.1实现的「8小时持续工作」能力。
这不是一个营销概念,是可验证的工程能力指标。
传统模型交互是「一问一答」或「短任务」模式,任务通常在几分钟内完成。长程任务要求模型做到四件事:
- 接受复杂的多步骤任务,自主规划执行路径
- 执行途中遇到障碍,自主调整策略
- 识别当前方法的收益瓶颈,主动切换到结构性不同的方案
- 在没有人类干预的情况下,持续推进直到交付
GLM-5.1的关键技术实现是「Slime」框架,基于异步智能体强化学习(Async Agent RL),让模型能够从长程交互中持续学习,而不只是优化单轮响应质量。
一个公开的演示案例:向量数据库优化任务中,模型在固定策略内做增量调优,当收益趋于停滞时,主动分析benchmark日志、定位瓶颈,然后跳转到结构性不同的方案——从全库扫描到IVF分桶,从单精度到量化粗排,从单层路由到两级剪枝。全程无人干预,持续超过8小时。
目前能达到这个水平的模型,全球只有Claude Opus 4.6和GLM-5.1。GPT-5.4和Gemini 3.1 Pro在这个维度上尚未发布可对比的数据。
四、推理与通识能力:没有塌陷,但有明显差距
GLM-5.1定位是「编程和agent旗舰」,推理和通识不是核心宣传点,但仍需有基本水位。
| 基准 | GLM-5.1 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|
| AIME 2026 | 95.3% | 96.1% | 97.2% | 95.8% |
| GPQA Diamond | 86.2% | 88.9% | 94.3% | 87.5% |
AIME 2026(竞赛数学)的95.3%是扎实的一流分数,与GPT-5.4基本持平。GPQA Diamond(专业科学问题)的86.2%则与Gemini 3.1 Pro有约8个百分点的差距——在跨学科科学推理上,这个差距不可忽视。
结论:GLM-5.1的推理能力属于第一梯队,但在专业科学领域仍落后于Gemini,这是它目前最明显的短板。
五、多模态能力:GLM-5.1本身是纯文本模型
这里需要澄清一个常见误解:GLM-5.1本身只支持文本输入,不具备多模态能力。
智谱的多模态旗舰是另一个产品:GLM-5V-Turbo。它基于相同的744B MoE底座,但额外整合了新一代CogViT视觉编码器,支持图像、视频、文本的原生处理。
GLM-5V-Turbo主要能力:
- 图像理解与OCR
- 设计稿/UI截图 → 可运行前端代码(从设计到实现的完整还原)
- 视频时序理解(帧后插入时间索引token,增强定位能力)
- 几何与空间感知
目前GLM-5V-Turbo的完整多模态基准横评数据尚未发布,因此无法给出与GPT-5.4 Vision、Gemini 3.1 Pro的精确对比数字。从已公开的UI→代码演示来看,视觉编程场景表现突出;但在通用多模态理解方面,Gemini 3.1 Pro目前仍是公认的领先者。
六、国内横评:在中文AI生态里处于什么位置
国内主流模型综合横评(BenchLM 2026-04):
| 模型 | 综合评分 | 编程优势 | 推理优势 | Agent能力 |
|---|---|---|---|---|
| GLM-5.1 | 84 | SWE-Bench Pro全球#1 | AIME 95.3% | 8小时长程任务 |
| Qwen3.6-Plus | 81 | SWE-Bench 69.5% | GPQA 90.4% | MCP工具调用强 |
| Kimi K2.5 | 72 | 编程强 | 推理稳 | 长文本优势 |
| DeepSeek V4 | 65 | 工程编程稳 | 推理中等 | 价格极低 |
GLM-5.1 vs Qwen3.6-Plus,是目前国内最接近的对手竞争。Qwen在专业知识(GPQA 90.4 vs 86.2)和工具调用生态(MCP-Atlas 74.1 vs 71.8)更强;GLM-5.1在长程工程任务和SWE-Bench编程上领先。
GLM-5.1 vs DeepSeek V4,编程和agent能力GLM明显领先,但价格差3倍以上。DeepSeek仍是性价比极高的选择,适合高并发、成本敏感的场景。
七、价格信号:涨价10%说明什么
API定价对比(2026-04,美元/百万token):
| 模型 | 输入 | 输出 |
|---|---|---|
| GLM-5.1 | $0.95 | $3.15 |
| Claude Opus 4.6 | $15 | $75 |
| Claude Sonnet 4.6 | $3 | $15 |
| GPT-5.4 | $10 | $30 |
| Gemini 3.1 Pro | $3.5 | $10.5 |
| Qwen3.6-Plus | $1.2 | $4.8 |
| DeepSeek V4 | $0.28 | $1.12 |
GLM-5.1比Claude Opus 4.6便宜93%,比Gemini 3.1 Pro便宜约70%,输出价格已接近Claude Sonnet 4.6。涨价是一个明确的定位信号:智谱不再用低价竞争,而是在「接近旗舰能力、中端定价」这个区间站稳脚跟。
八、一个需要单独说的方法论细节
GLM-5.1在SWE-Bench Pro上的第一,是在Scaffold(agent脚手架框架)加持下测出来的——模型配合了专门设计的agent框架完成任务,而非裸模型直接作答。
这在业界是通行做法,OpenAI、Anthropic的模型参与测试时同样使用了类似框架。但这意味着:如果你直接调用API而不搭建对应的agent工程框架,实际体验到的编程能力会低于基准数字。
GLM-5.1真正的竞争力,在于它是目前最适合被封装进agent工程管道的开源模型——长上下文、长任务持续能力、强代码生成,三者在开源范围内尚无对手。基准数字只是入场券,真正的价值在工程集成之后才能释放。
我的判断
GLM-5.1值得认真对待,但有两个「第一」需要区分清楚:
✅ 这个第一成立:开源模型编程能力全球第一。SWE-Bench Pro单项超越所有闭源模型,综合编程基准国内和开源领域均排第一。8小时长程自主工作能力,与Claude Opus 4.6并列全球两强。全程华为昇腾训练,是国产算力路线的一次重要验证。
⚠️ 这个第一不成立:全球综合最强编程模型。Claude Opus 4.6和Gemini 3.1 Pro在综合编程得分上仍小幅领先。专业科学推理(GPQA Diamond)有约8个百分点的差距。多模态能力数据不完整,无法与Gemini旗舰做全面对比。
对开发者的实际建议:如果你需要在agent工程管道里跑长程编程任务,GLM-5.1是目前开源范围内唯一同时满足「能力」和「可部署」两个条件的选择。如果你的场景是通用助手或多模态任务,Gemini 3.1 Pro或Claude系列仍是更稳妥的选择。
GLM-5.1的发布,标志着开源模型在编程agent这个具体场景上,第一次在关键基准上与闭源旗舰持平甚至超越。这不是「全面赶上」,但也不是噱头。
边界,在真实地移动。
数据来源:SWE-Bench官方排行榜 / BenchLM 2026-04 / Z.ai官方文档 / MarkTechPost / 量子位 / 智源社区 / IT之家 / Pandaily。数据截止2026年4月14日。