这周最值得说的:OpenAI 真的解了个数学难题,但更实用的是河马的 8B 模型 99% 了
OpenAI 丢出来的几何证明确实炸——80 年的单位距离猜想,模型直接给反例了。但说实话,日常干活用不上。真正让我兴奋的反而是两件事:一个 8B 的小模型在 agentic 任务上被套上 guardrails 后冲到 99%,另一个是 MOSS 那篇论文——agent 终于开始改自己源码了,不只是改 prompt。
MOSS:Agent 开始动自己的源代码了,但这把刀很锋利
之前所有自演进 agent 都只改 prompt、skill 文件、记忆 schema,核心执行逻辑(那个 harness)没人碰。MOSS 直接干到源码级别——agent 可以重写自己的执行循环、工具调用方式、甚至状态管理。
按我现在看,这是双刃剑。能让 agent 从失败中修复真正 bug,但也能让 agent 给自己开个后门。论文里没讨论安全,我觉得这是个坑。不过方向对——单改 prompt 解决不了架构问题,就像给漏水的船换个油漆颜色。
Forge:Guardrails 把 8B 模型从 53% 拉到 99%
https://github.com/antoinezambelli/forge
HN 上 676 赞的项目。说白了就是对着 agent 的每一步输出做 runtime validation,不让它瞎编参数、不让它执行非法指令。效果离谱:一个 8B 的开源模型,用了 Forge 后 agentic benchmark 从 53% 到 99%。
我不信这是通用解法——肯定有 benchmark contamination 或任务类型偏窄。但思路值得抄:与其训练更大模型,不如在编排层加硬约束。很多团队搞 agent 框架都在卷 prompt 工程,Forge 说“别让模型犯错,代码直接拦”。我蛮认同。
工具效率:Semble 和 Id-agent 在给 agent 减负
Semble(https://github.com/MinishLab/semble)号称比 grep 少用 98% tokens。本质是预索引代码库,agent 搜代码时只返回最相关片段,而不是整行匹配。对上下文窗口紧张的场景很实用。我自己试了,在 agent 写代码时 token 消耗确实降一半。
Id-agent(https://github.com/vostride/id-agent)更小——给 agent 生成 token 高效的 UUID,替代传统 UUID v4。如果 agent 多轮调用里每个 ID 都传,累积起来 token 不少。这项目把 ID 长度减到 8 字节 base62,不算大创新但够实用。
还有 HarnessAPI 那篇论文(https://arxiv.org/abs/2605.22733v1),讲让同一个 Python 函数同时做 HTTP 和 MCP 工具,不用写两套。这个痛点我深有体会——MCP 工具注册和 REST API 总是两套代码,维护起来吐血。它用 skill-first 设计,自动生成两套路由和 schema。论文还只到原型,但思路对,希望有实践落地。
多智能体和沙箱:DeltaBox 和 Agora-1
DeltaBox(https://arxiv.org/abs/2605.22781v1)做沙箱的 checkpoint/rollback,从秒级降到毫秒级。玩过 tree search 强化学习的都知道,每次状态探索要恢复现场,几百毫秒耗在 I/O 上,只能降低探索频率。它用 delta 机制只记录变更,而不是全量快照。论文给的数据是 3-5 毫秒 C/R 延迟。
Agora-1(https://odyssey.ml/introducing-agora-1)是多智能体世界模型,让 agent 在共享信号中协作。论文没细看,但单从理念来说,多 agent 通信目前的瓶颈是带宽和语义对齐,它的方法是用 latent embedding 而非自然语言。类似 LCGuard(https://arxiv.org/abs/2605.22786v1)也在做 KV cache 层面的安全通信。这两个方向交汇了——都在说,agent 之间不要说话,直接传模型内部表示更高效。
问题在于:如果 agent 之间传 latent,你怎么调试?出了问题不知道谁传了啥。安全团队肯定反对。我个人倾向 hybrid——关键决策走自然语言,高频协作走 latent。
厂商杂谈:OpenAI 证明定理,LangChain 改名
OpenAI 解了单位距离猜想(https://openai.com/index/model-disproves-discrete-geometry-conjecture),这事确实里程碑。模型不是靠查资料,是真的在 Lean 里形式化构造了反例。不过我说实话,这和绝大多数工程师的工作没半毛钱关系。更实际的是 Codex 被 Gartner 认证(https://openai.com/index/gartner-2026-agentic-coding-leader)和 Virgin Atlantic 案例(https://openai.com/index/virgin-atlantic)——后者说用 Codex 写了移动 app,零 P1 bug 赶上假期发布。这种落地故事比论文有力。
Qwen3.7-Max 发布(https://qwen.ai/blog?id=qwen3.7)在 HN 上 715 赞,号称 agent frontier。我没来得及跑 benchmark,但通义团队持续输出,值得关注。
LangChain 这周把 Agent Builder 改名为 LangSmith Fleet(https://changelog.langchain.com/announcements/agent-builder-is-now-langsmith-fleet),还发了 Deep Agents v0.4(https://changelog.langchain.com/announcements/deep-agents-v0-4)。改名这事我冷笑了一声——Agent Builder 才推多久又换名,生态里命名混乱的毛病又犯了。不过 Deep Agents v0.4 加了树搜索和多步反思,值得试试。
最后聊两句
这周最大的感受是:agent 研发正在从“怎么让模型更聪明”转向“怎么让系统更健壮”。Forge 的 guardrails、MOSS 的源码自改、DeltaBox 的沙箱、Semble 的 token 优化——全都在解决实际部署里的脏活。也许 6 个月后回头看,这些基础设施的进步比一个模型 benchmark 跳几个点更有价值。
你说是不是。