4月7日,智谱(Z.ai)发布了GLM-5.1。

发布公告措辞克制,但数字很刺眼:SWE-Bench Pro全球第一,分数58.4,超过Claude Opus 4.6的57.3和GPT-5.4。一个开源模型,在最硬核的编程agent基准上,第一次超过了所有闭源模型。

消息传开后,量化社区的几位CUDA专家在14小时内公开了他们的岗位变动——不是段子,是真事。

但「全球第一」这四个字,需要加一个问号。

这篇文章会告诉你:GLM-5.1的第一,是在什么条件下成立的,它在哪里确实很强,在哪里仍然有差距,以及对开发者和行业意味着什么。


一、先把基本参数说清楚

GLM-5.1不是一个全新模型,是GLM-5基础模型的post-training强化版本,专门针对编程和agent任务做了深度优化。

核心规格:

项目数值
总参数量744B(MoE架构)
每次推理激活参数40B
上下文窗口200K tokens
最大输出长度128K tokens
开源协议MIT(可商用)
发布平台HuggingFace / ModelScope / GitHub

744B是总参数,推理时只激活40B——这是MoE(混合专家)架构的特点,推理成本远低于同量级的Dense模型。可以理解为:它有一支744B规模的专家团队,但每次工作只调动40B规模的专家上场。

有一个细节值得单独说:整个GLM-5家族全部使用华为昇腾910B芯片 + MindSpore框架训练,零NVIDIA GPU参与。这不是偶然——智谱自2025年1月被列入美国实体清单后,已无法合法购买英伟达数据中心GPU。这次训练结果证明,国产算力路线在旗舰模型训练上已具备可行性,虽然成本和效率与H100集群的差距仍需时间量化。


二、编程能力:第一这个帽子,戴得稳吗?

GLM-5.1最核心的宣传点是:SWE-Bench Pro全球第一

SWE-Bench Pro是SWE-Bench系列中难度最高的版本,测的是模型解决真实GitHub issue的能力——给你一个代码库、一个bug报告,你能不能自主找到问题、写出patch、通过测试。

SWE-Bench Pro核心分数对比:

模型SWE-Bench ProSWE-Bench Verified
GLM-5.158.477.8%
Claude Opus 4.657.380.8%
GPT-5.455.174.9%
Gemini 3.1 Pro54.680.6%
DeepSeek V449.371.2%
Qwen3.6-Plus47.869.5%

GLM-5.1在SWE-Bench Pro上的第一是真实的,不是水分。58.4 vs 57.3,差距不大,但确实领先。

但这里有一个重要的上下文:

SWE-Bench Pro不等于「编程能力综合全球第一」。

如果把SWE-Bench Pro、Terminal-Bench 2.0(终端工程任务)、NL2Repo(从自然语言生成整个代码库)三个基准合并计算综合得分:

模型综合编程得分
Claude Opus 4.657.5
Gemini 3.1 Pro56.8
GLM-5.154.9(开源第一)
GPT-5.453.2

综合排名,GLM-5.1是全球第三,开源第一。

这个区别很重要:GLM-5.1是开源模型中编程能力最强的,在SWE-Bench Pro单项上超过所有闭源模型,但在综合编程能力上仍略落后于Claude Opus 4.6和Gemini 3.1 Pro。

另外两项具体数据:

  • Terminal-Bench 2.0:63.5%(测试在终端环境下完成工程任务的能力)
  • NL2Repo:42.7%(从需求描述生成完整代码仓库)
  • CyberGym:68.7%(网络安全工程任务)

三、长程任务:这才是真正的突破点

比SWE-Bench Pro第一更有实质意义的,是GLM-5.1实现的「8小时持续工作」能力。

这不是一个营销概念,是可验证的工程能力指标。

传统模型交互是「一问一答」或「短任务」模式,任务通常在几分钟内完成。长程任务要求模型做到四件事:

  1. 接受复杂的多步骤任务,自主规划执行路径
  2. 执行途中遇到障碍,自主调整策略
  3. 识别当前方法的收益瓶颈,主动切换到结构性不同的方案
  4. 在没有人类干预的情况下,持续推进直到交付

GLM-5.1的关键技术实现是「Slime」框架,基于异步智能体强化学习(Async Agent RL),让模型能够从长程交互中持续学习,而不只是优化单轮响应质量。

一个公开的演示案例:向量数据库优化任务中,模型在固定策略内做增量调优,当收益趋于停滞时,主动分析benchmark日志、定位瓶颈,然后跳转到结构性不同的方案——从全库扫描到IVF分桶,从单精度到量化粗排,从单层路由到两级剪枝。全程无人干预,持续超过8小时。

目前能达到这个水平的模型,全球只有Claude Opus 4.6和GLM-5.1。GPT-5.4和Gemini 3.1 Pro在这个维度上尚未发布可对比的数据。


四、推理与通识能力:没有塌陷,但有明显差距

GLM-5.1定位是「编程和agent旗舰」,推理和通识不是核心宣传点,但仍需有基本水位。

基准GLM-5.1Claude Opus 4.6Gemini 3.1 ProGPT-5.4
AIME 202695.3%96.1%97.2%95.8%
GPQA Diamond86.2%88.9%94.3%87.5%

AIME 2026(竞赛数学)的95.3%是扎实的一流分数,与GPT-5.4基本持平。GPQA Diamond(专业科学问题)的86.2%则与Gemini 3.1 Pro有约8个百分点的差距——在跨学科科学推理上,这个差距不可忽视。

结论:GLM-5.1的推理能力属于第一梯队,但在专业科学领域仍落后于Gemini,这是它目前最明显的短板


五、多模态能力:GLM-5.1本身是纯文本模型

这里需要澄清一个常见误解:GLM-5.1本身只支持文本输入,不具备多模态能力

智谱的多模态旗舰是另一个产品:GLM-5V-Turbo。它基于相同的744B MoE底座,但额外整合了新一代CogViT视觉编码器,支持图像、视频、文本的原生处理。

GLM-5V-Turbo主要能力:

  • 图像理解与OCR
  • 设计稿/UI截图 → 可运行前端代码(从设计到实现的完整还原)
  • 视频时序理解(帧后插入时间索引token,增强定位能力)
  • 几何与空间感知

目前GLM-5V-Turbo的完整多模态基准横评数据尚未发布,因此无法给出与GPT-5.4 Vision、Gemini 3.1 Pro的精确对比数字。从已公开的UI→代码演示来看,视觉编程场景表现突出;但在通用多模态理解方面,Gemini 3.1 Pro目前仍是公认的领先者。


六、国内横评:在中文AI生态里处于什么位置

国内主流模型综合横评(BenchLM 2026-04):

模型综合评分编程优势推理优势Agent能力
GLM-5.184SWE-Bench Pro全球#1AIME 95.3%8小时长程任务
Qwen3.6-Plus81SWE-Bench 69.5%GPQA 90.4%MCP工具调用强
Kimi K2.572编程强推理稳长文本优势
DeepSeek V465工程编程稳推理中等价格极低

GLM-5.1 vs Qwen3.6-Plus,是目前国内最接近的对手竞争。Qwen在专业知识(GPQA 90.4 vs 86.2)和工具调用生态(MCP-Atlas 74.1 vs 71.8)更强;GLM-5.1在长程工程任务和SWE-Bench编程上领先。

GLM-5.1 vs DeepSeek V4,编程和agent能力GLM明显领先,但价格差3倍以上。DeepSeek仍是性价比极高的选择,适合高并发、成本敏感的场景。


七、价格信号:涨价10%说明什么

API定价对比(2026-04,美元/百万token):

模型输入输出
GLM-5.1$0.95$3.15
Claude Opus 4.6$15$75
Claude Sonnet 4.6$3$15
GPT-5.4$10$30
Gemini 3.1 Pro$3.5$10.5
Qwen3.6-Plus$1.2$4.8
DeepSeek V4$0.28$1.12

GLM-5.1比Claude Opus 4.6便宜93%,比Gemini 3.1 Pro便宜约70%,输出价格已接近Claude Sonnet 4.6。涨价是一个明确的定位信号:智谱不再用低价竞争,而是在「接近旗舰能力、中端定价」这个区间站稳脚跟。


八、一个需要单独说的方法论细节

GLM-5.1在SWE-Bench Pro上的第一,是在Scaffold(agent脚手架框架)加持下测出来的——模型配合了专门设计的agent框架完成任务,而非裸模型直接作答。

这在业界是通行做法,OpenAI、Anthropic的模型参与测试时同样使用了类似框架。但这意味着:如果你直接调用API而不搭建对应的agent工程框架,实际体验到的编程能力会低于基准数字

GLM-5.1真正的竞争力,在于它是目前最适合被封装进agent工程管道的开源模型——长上下文、长任务持续能力、强代码生成,三者在开源范围内尚无对手。基准数字只是入场券,真正的价值在工程集成之后才能释放。


我的判断

GLM-5.1值得认真对待,但有两个「第一」需要区分清楚:

✅ 这个第一成立:开源模型编程能力全球第一。SWE-Bench Pro单项超越所有闭源模型,综合编程基准国内和开源领域均排第一。8小时长程自主工作能力,与Claude Opus 4.6并列全球两强。全程华为昇腾训练,是国产算力路线的一次重要验证。

⚠️ 这个第一不成立:全球综合最强编程模型。Claude Opus 4.6和Gemini 3.1 Pro在综合编程得分上仍小幅领先。专业科学推理(GPQA Diamond)有约8个百分点的差距。多模态能力数据不完整,无法与Gemini旗舰做全面对比。

对开发者的实际建议:如果你需要在agent工程管道里跑长程编程任务,GLM-5.1是目前开源范围内唯一同时满足「能力」和「可部署」两个条件的选择。如果你的场景是通用助手或多模态任务,Gemini 3.1 Pro或Claude系列仍是更稳妥的选择。

GLM-5.1的发布,标志着开源模型在编程agent这个具体场景上,第一次在关键基准上与闭源旗舰持平甚至超越。这不是「全面赶上」,但也不是噱头。

边界,在真实地移动。


数据来源:SWE-Bench官方排行榜 / BenchLM 2026-04 / Z.ai官方文档 / MarkTechPost / 量子位 / 智源社区 / IT之家 / Pandaily。数据截止2026年4月14日。