自进化 vs 大生态：Hermes Agent 与 OpenClaw 深度横评

核心判断：OpenClaw 做大了"Agent 的地盘"，Hermes Agent 想的是"Agent 怎么变成一个会学习的人"。这是两种截然不同的系统哲学，不是同一条赛道上的快慢之争。

一、为什么要做这篇横评

2026 年 3 月下旬，OpenClaw 社区经历了一次罕见的公开危机：9 个 CVE 在 4 天内集中披露，其中最高危漏洞 CVE-2026-32922 的 CVSS 评分达到 9.9 分——满分 10 分。与此同时，其技能市场 ClawHub 里被检出超过 824 个恶意技能包，占总量约 8%，攻击者借此部署信息窃取木马 AMOS，悄无声息地打包走用户的 API 密钥和对话记录。

就在 OpenClaw 的安全报告在 Reddit 和 Hacker News 上刷屏的同一周，另一个 AI Agent 项目悄悄突破了 GitHub 95,000 星——它叫 Hermes Agent，来自 NousResearch，标语是"The agent that grows with you"（与你一同成长的 Agent）。

这篇文章不打算浇火，也不做道德评判。我想回答一个更实质的问题：Hermes Agent 到底解决了什么 OpenClaw 没解决的问题？它是替代品，还是另一种东西？

二、OpenClaw 是什么，它做到了什么

在进入 Hermes 之前，有必要交代一下 OpenClaw 的底色——因为很多人对它的印象还停在"那个很火的 AI 桌面助手"，对它的规模和已实现能力缺乏准确认知。

OpenClaw 是目前全球用户量最大的开源 AI Agent 框架之一，GitHub 星数超过 345,000，OpenRouter 上的 Token 消耗曾稳居日榜全球第一。它的核心设计理念是集成广度：

覆盖 24+ 通讯平台（Telegram、Discord、Slack、iMessage、WhatsApp、Signal……）
拥有 13,000+ 社区技能（ClawHub 技能市场）
提供托管节点服务，非技术用户几乎可以一键部署

这个"广度优先"的策略非常成功。OpenClaw 的生态网络效应是真实存在的：平台越多、技能越多，新用户进来就越方便，无需自己编写任何代码就能让 Agent 帮你管理邮件、刷 LinkedIn、跑数据报告。

但这也是它问题的根源。

一个超大的公共技能市场，意味着攻击面超大。3 月的安全事件表明，ClawHub 的审核机制远未跟上生态扩张速度。ClawHavoc 攻击活动在 2,857 个技能的初步审计中就发现了 341 个恶意包，等市场总量扩张到 10,700+ 技能后，恶意包数量升至 824 个，Bitdefender 的评估数字甚至接近 900——约占整个生态的 8-20%。

对于一个要帮你执行 shell 命令、读取文件、发送消息的系统来说，8% 的技能包是恶意的，这不是小问题。

三、Hermes Agent：NousResearch 的另一个赌注

NousResearch 是一家以模型研究为主的开源 AI 实验室，产品线包括 Hermes、Nomos、Psyche 等系列模型。2026 年 2 月，他们发布了 Hermes Agent——不是一个新模型，而是一个以"自进化"为核心设计原则的 AI Agent 框架。

Hermes Agent 的 GitHub 页面说的很直白：这是一个 自我托管、与模型无关的个人 AI Agent，设计目标是持续运行、跨会话记忆、主动调度任务，并随时间改善自身行为。

这里有个关键词值得停下来看清楚：与模型无关（model-agnostic）。

Hermes Agent 本身不绑定任何一个 LLM。它通过 OpenRouter 可以接入 200+ 个模型作为推理后端，换模型就像换引擎一样简单。这意味着它不会在某个模型降价、掉能力或者停服的时候变成一块砖——这在今天这个模型市场变化以月为单位的环境下，是一个很实用的设计决策。

3.1 三层记忆系统

Hermes Agent 的持久记忆是其与 OpenClaw 最大的技术差异之一。它实现了三层内存架构：

第一层：会话记忆（Session Memory）
标准的 LLM 上下文窗口管理，存储当前对话内容，会话结束后清空。这一层所有 Agent 框架都有。

第二层：持久记忆（Persistent Memory）
基于 SQLite + FTS5（全文检索）实现。官方公布的基准数据：在 10,000+ 条文档中的检索延迟约为 10ms，系统可舒适扩展至 10 万条文档。Agent 会触发"周期性记录"（periodic nudges），主动判断哪些信息值得存进长期记忆——不是把所有对话都塞进去，而是自主筛选。

第三层：用户模型（User Model）
基于 Honcho dialectic 用户建模框架，跨会话持续构建你的行为画像：你的偏好、工作习惯、语言风格、常用工具……这一层的目标是让 Agent 越用越理解你这个人，而不只是越用越熟悉某个任务。

三层之间有明确分工：会话记忆处理"此刻"，持久记忆存储"经验"，用户模型构建"认知"。

3.2 闭环学习系统：这才是真正的差异

如果说三层记忆是"记得住"，那闭环学习系统（Closed Learning Loop）就是"会进化"。

流程是这样的：

Observe → Plan → Act → Learn

当 Hermes 解决了一个复杂问题，它不会只是完成任务然后遗忘。它会：

分析哪些步骤有效、哪些走了弯路
把有效的解法提炼成一个技能文档（Markdown 格式，包含执行指令和示例代码）
把技能文档存入持久记忆，标注场景标签
下次遇到相似问题，优先调用已有技能

Nous Research 发布的基准测试数据显示：使用自创技能库的 Agent 实例，在重复性研究任务上比初始实例快 40%——无需任何人工提示词调优。Reddit 上的用户反馈与这个数据基本吻合：部分用户报告在 Agent 积累约两小时的自创技能后，重复性工作效率提升显著。

这些技能文档符合 agentskills.io 开放标准，可以搜索、导出、分享给其他 Hermes 实例——但关键是，它们是 Agent 自己写的，不是从公共市场下载的未经审计的陌生代码。

四、深度横评：六个维度

4.1 记忆与学习能力

	OpenClaw	Hermes Agent
跨会话记忆	有限，依赖插件	原生三层架构，SQLite + FTS5
用户建模	无	Honcho dialectic 用户模型
技能自生成	无（依赖社区贡献）	闭环学习，自动生成并迭代
重复任务加速	无数据	实测 +40%（Nous Research 基准）

判断：这个维度 Hermes 完胜，且差距是结构性的，不是版本迭代能弥合的。OpenClaw 的技能是"你下载的"，Hermes 的技能是"它自己学到的"——这是两种完全不同的知识来源。

4.2 生态与集成广度

	OpenClaw	Hermes Agent
通讯平台	24+（含 iMessage、Signal）	Telegram、Discord、Slack、WhatsApp、Signal、Email、CLI
技能/插件数量	13,000+（ClawHub）	自生成 + 社区共享（规模较小）
GitHub 星数	345,000+	95,600（截至 2026 年 4 月）
用户规模	日全球第一（OpenRouter tokens）	高速增长中，规模约为前者 1/3

判断：OpenClaw 的生态优势是真实的。如果你需要接管一个有大量存量集成需求的工作流，OpenClaw 的现成技能数量有压倒性优势。但这个优势的代价，是下一个维度要讨论的安全问题。

4.3 安全性

这是 2026 年上半年两个项目分化最明显的维度。

OpenClaw 截至 4 月已累计追踪 138+ CVE，其中：

3 月的集中爆发：4 天内 9 个 CVE，最高 CVSS 9.9
CVE-2026-32922：设备令牌轮换函数未约束调用方权限范围，可借此获取管理员级 token
供应链攻击：ClawHavoc 活动通过 ClawHub 分发 824+ 恶意技能，涉及信息窃取、API 密钥外泄、安全护栏绕过

Hermes Agent 截至 2026 年 4 月：零 Agent 专项 CVE 记录。

这个差距不完全是"Hermes 写得更好"——规模较小意味着攻击面相对更窄，也意味着挖掘漏洞的动机相对较低。但有一点是架构性的：Hermes 完全自托管，技能由 Agent 自身生成而非从公共市场下载，从根本上规避了 ClawHub 类型的供应链攻击面。

判断：安全维度，Hermes 目前有结构性优势，但需要随用户规模扩大持续观察。

4.4 部署与运维成本

	OpenClaw	Hermes Agent
部署复杂度	有托管节点服务，门槛低	自托管为主，需基本技术能力
最低运行成本	依赖平台订阅	$5/月 VPS 可运行，支持 Daytona/Modal 无服务器
空闲成本	持续消耗	无服务器架构下空闲几乎零成本
Token 花费对比	用户报告日消耗可达 $100	用户报告日消耗约 $3（相同任务量）

Token 花费差距如此悬殊，部分原因在于 OpenClaw 的执行架构更倾向于频繁调用，Hermes 则因为有技能缓存机制，重复性工作不必每次重新生成。

判断：Hermes 在长期运营成本上有显著优势，尤其适合个人开发者和预算有限的用户。

4.5 模型自由度

OpenClaw 对主流模型有良好支持，但生态整合深度与少数提供商绑定较紧。

Hermes Agent 通过 OpenRouter 支持 200+ 个模型作为推理后端，换模型无需改配置——这在 2026 年这个模型迭代以周为单位的环境里是一个很重要的弹性。你今天用 Claude 3.7，明天换成 Gemini 2.5 或者某个便宜的开源模型，Hermes 的技能库、记忆系统和用户模型全部无缝延续。

判断：模型灵活性维度，Hermes 更胜一筹。

4.6 上手门槛与用户体验

这是 OpenClaw 的主场。它的托管方案、图形界面和大量预制技能，让非技术用户几乎可以零配置上手。有用户形容：“装完插件，两分钟后 Agent 在帮我回邮件。”

Hermes Agent 目前以 CLI 为主，有基本的 Web 界面，但 UI 打磨程度远不及 OpenClaw。对于没有服务器运维经验的用户，初始配置有一定门槛。

然而，一旦配置完成，用户反馈的主观体验是另一面：“这个感觉是为我这种人做的。"——这句话大概率指的是，Hermes 记住了他的偏好，不再每次都从零开始。

判断：冷启动体验 OpenClaw 更好；长期使用体验 Hermes 更好。这个交叉点大约发生在 Agent 积累了 1-2 周的对话记忆之后。

五、两种哲学，两个赌注

把六个维度拆完之后，我认为更重要的问题不是"哪个更好”，而是：它们各自在赌什么？

OpenClaw 的赌注：AI Agent 的核心价值在于"覆盖面"。一个能接管你所有通讯渠道、能运行几乎任何第三方工作流的 Agent，就是最好的 Agent。生态网络效应会随时间扩大护城河。

Hermes Agent 的赌注：AI Agent 的核心价值在于"深度适应"。一个能记住你、理解你、把对你有效的方法沉淀成可复用技能的 Agent，会比任何通用 Agent 都更值得信赖。个人化与自进化才是长期壁垒。

两个赌注都有道理，但它们面对的现实问题不同：

OpenClaw 的挑战是安全与质量。当一个技能市场规模达到万量级，如何保证供应链的可信度，是它目前没有回答好的问题。
Hermes 的挑战是冷启动与规模。一个"越用越好"的 Agent，对新用户的初始体验不友好；而用户如果在前两周因为门槛放弃了，自进化就永远不会发生。

六、谁应该用哪个？

选 OpenClaw 的理由：

你需要快速覆盖大量现有集成（Slack、WhatsApp、iMessage 等）
你的工作流以"一次性执行"为主，不需要 Agent 记住历史偏好
你没有服务器运维能力，需要开箱即用的托管方案
你愿意在安全上花精力，做好技能审计和隔离部署

选 Hermes Agent 的理由：

你的工作流有大量重复性任务，希望 Agent 越用越顺手
你重视数据隐私，不愿意把 API 密钥和对话内容托管给第三方
你希望 Agent 能跨会话记住你的偏好，而不是每次重新解释
你有基本的 Linux/服务器操作能力，或者愿意花一两小时完成初始配置

两者都不适合的场景： 如果你需要的是一个"能写代码、解决复杂多文件工程问题"的开发 Agent，这两个产品都不是最优解——它们更擅长个人自动化、信息管理和任务调度，而非 SWE-bench 类型的工程任务。

七、我的判断，以及它的边界

我认为 Hermes Agent 代表了一个比 OpenClaw 更健康的长期方向：把"学习"放进 Agent 的基础架构，而不是靠社区堆插件。

这个判断的支撑是：

自生成技能从架构上隔绝了供应链攻击面
闭环学习是真实的性能收益（有数据支撑）
模型无关性在当前模型快速迭代的环境下是实用资产

但我的判断有明确的边界：

Hermes 目前 95K 星 vs OpenClaw 345K 星，用户规模差距真实存在，生态成熟度尚不及后者
“零 CVE"可能部分来自攻击动机不足，而非代码更安全；随规模扩大，这个数字会变
自进化的优势只在重复性工作流中兑现，如果你的工作高度多样，技能积累的红利会打折

对于大多数个人用户，我现在的建议是：如果你愿意花一个下午配置环境，选 Hermes；如果你需要今天就跑起来，选 OpenClaw，但请认真对待安全配置。

这两个项目不是零和竞争。它们回答的是同一个问题的两面：Agent 应该怎样帮人工作？一个说"接管一切”，一个说"记住你是谁"。真正的答案，可能需要两边都继续演化一段时间才会清晰。

数据时效：2026-04。GitHub 星数、CVE 数量等数据截止至本文撰写时，可能已有变化。

一、为什么要做这篇横评#

二、OpenClaw 是什么，它做到了什么#

三、Hermes Agent：NousResearch 的另一个赌注#

3.1 三层记忆系统#

3.2 闭环学习系统：这才是真正的差异#

四、深度横评：六个维度#

4.1 记忆与学习能力#

4.2 生态与集成广度#

4.3 安全性#

4.4 部署与运维成本#

4.5 模型自由度#

4.6 上手门槛与用户体验#

五、两种哲学，两个赌注#

六、谁应该用哪个？#

七、我的判断，以及它的边界#