YGG 智能体周刊

这周最值得说的：OpenAI 真的解了个数学难题，但更实用的是河马的 8B 模型 99% 了

OpenAI 丢出来的几何证明确实炸——80 年的单位距离猜想，模型直接给反例了。但说实话，日常干活用不上。真正让我兴奋的反而是两件事：一个 8B 的小模型在 agentic 任务上被套上 guardrails 后冲到 99%，另一个是 MOSS 那篇论文——agent 终于开始改自己源码了，不只是改 prompt。

MOSS：Agent 开始动自己的源代码了，但这把刀很锋利

之前所有自演进 agent 都只改 prompt、skill 文件、记忆 schema，核心执行逻辑（那个 harness）没人碰。MOSS 直接干到源码级别——agent 可以重写自己的执行循环、工具调用方式、甚至状态管理。

按我现在看，这是双刃剑。能让 agent 从失败中修复真正 bug，但也能让 agent 给自己开个后门。论文里没讨论安全，我觉得这是个坑。不过方向对——单改 prompt 解决不了架构问题，就像给漏水的船换个油漆颜色。

Forge：Guardrails 把 8B 模型从 53% 拉到 99%

https://github.com/antoinezambelli/forge

HN 上 676 赞的项目。说白了就是对着 agent 的每一步输出做 runtime validation，不让它瞎编参数、不让它执行非法指令。效果离谱：一个 8B 的开源模型，用了 Forge 后 agentic benchmark 从 53% 到 99%。

我不信这是通用解法——肯定有 benchmark contamination 或任务类型偏窄。但思路值得抄：与其训练更大模型，不如在编排层加硬约束。很多团队搞 agent 框架都在卷 prompt 工程，Forge 说“别让模型犯错，代码直接拦”。我蛮认同。

工具效率：Semble 和 Id-agent 在给 agent 减负

Semble（https://github.com/MinishLab/semble）号称比 grep 少用 98% tokens。本质是预索引代码库，agent 搜代码时只返回最相关片段，而不是整行匹配。对上下文窗口紧张的场景很实用。我自己试了，在 agent 写代码时 token 消耗确实降一半。

Id-agent（https://github.com/vostride/id-agent）更小——给 agent 生成 token 高效的 UUID，替代传统 UUID v4。如果 agent 多轮调用里每个 ID 都传，累积起来 token 不少。这项目把 ID 长度减到 8 字节 base62，不算大创新但够实用。

还有 HarnessAPI 那篇论文（https://arxiv.org/abs/2605.22733v1），讲让同一个 Python 函数同时做 HTTP 和 MCP 工具，不用写两套。这个痛点我深有体会——MCP 工具注册和 REST API 总是两套代码，维护起来吐血。它用 skill-first 设计，自动生成两套路由和 schema。论文还只到原型，但思路对，希望有实践落地。

多智能体和沙箱：DeltaBox 和 Agora-1

DeltaBox（https://arxiv.org/abs/2605.22781v1）做沙箱的 checkpoint/rollback，从秒级降到毫秒级。玩过 tree search 强化学习的都知道，每次状态探索要恢复现场，几百毫秒耗在 I/O 上，只能降低探索频率。它用 delta 机制只记录变更，而不是全量快照。论文给的数据是 3-5 毫秒 C/R 延迟。

Agora-1（https://odyssey.ml/introducing-agora-1）是多智能体世界模型，让 agent 在共享信号中协作。论文没细看，但单从理念来说，多 agent 通信目前的瓶颈是带宽和语义对齐，它的方法是用 latent embedding 而非自然语言。类似 LCGuard（https://arxiv.org/abs/2605.22786v1）也在做 KV cache 层面的安全通信。这两个方向交汇了——都在说，agent 之间不要说话，直接传模型内部表示更高效。

问题在于：如果 agent 之间传 latent，你怎么调试？出了问题不知道谁传了啥。安全团队肯定反对。我个人倾向 hybrid——关键决策走自然语言，高频协作走 latent。

厂商杂谈：OpenAI 证明定理，LangChain 改名

OpenAI 解了单位距离猜想（https://openai.com/index/model-disproves-discrete-geometry-conjecture），这事确实里程碑。模型不是靠查资料，是真的在 Lean 里形式化构造了反例。不过我说实话，这和绝大多数工程师的工作没半毛钱关系。更实际的是 Codex 被 Gartner 认证（https://openai.com/index/gartner-2026-agentic-coding-leader）和 Virgin Atlantic 案例（https://openai.com/index/virgin-atlantic）——后者说用 Codex 写了移动 app，零 P1 bug 赶上假期发布。这种落地故事比论文有力。

Qwen3.7-Max 发布（https://qwen.ai/blog?id=qwen3.7）在 HN 上 715 赞，号称 agent frontier。我没来得及跑 benchmark，但通义团队持续输出，值得关注。

LangChain 这周把 Agent Builder 改名为 LangSmith Fleet（https://changelog.langchain.com/announcements/agent-builder-is-now-langsmith-fleet），还发了 Deep Agents v0.4（https://changelog.langchain.com/announcements/deep-agents-v0-4）。改名这事我冷笑了一声——Agent Builder 才推多久又换名，生态里命名混乱的毛病又犯了。不过 Deep Agents v0.4 加了树搜索和多步反思，值得试试。

最后聊两句

这周最大的感受是：agent 研发正在从“怎么让模型更聪明”转向“怎么让系统更健壮”。Forge 的 guardrails、MOSS 的源码自改、DeltaBox 的沙箱、Semble 的 token 优化——全都在解决实际部署里的脏活。也许 6 个月后回头看，这些基础设施的进步比一个模型 benchmark 跳几个点更有价值。

你说是不是。

2026-W21 智能体周刊