智谱 | 查拉图的数字花园

智谱GLM-5.1全测评：开源拿下SWE-Bench Pro全球第一，代价是什么

GLM-5.1在SWE-Bench Pro上以58.4分超越Claude Opus 4.6和GPT-5.4，成为首个开源登顶这一编程基准的模型。但这个「第一」有多少含金量？它的长程任务、多模态、推理能力真实水位在哪里？本文基于最新公开基准数据，给出一个不加滤镜的评测判断。