智谱GLM-5.1全测评:开源拿下SWE-Bench Pro全球第一,代价是什么
GLM-5.1在SWE-Bench Pro上以58.4分超越Claude Opus 4.6和GPT-5.4,成为首个开源登顶这一编程基准的模型。但这个「第一」有多少含金量?它的长程任务、多模态、推理能力真实水位在哪里?本文基于最新公开基准数据,给出一个不加滤镜的评测判断。
GLM-5.1在SWE-Bench Pro上以58.4分超越Claude Opus 4.6和GPT-5.4,成为首个开源登顶这一编程基准的模型。但这个「第一」有多少含金量?它的长程任务、多模态、推理能力真实水位在哪里?本文基于最新公开基准数据,给出一个不加滤镜的评测判断。