YGG 智能体周刊

这一周的信号有点乱，但有几件事值得盯着看

这周 ArXiv 井喷了十几篇跟 agent 相关的论文，Google 发了第八代 TPU，OpenAI 推了 GPT-5.5，Zed 悄悄上了并行 agent。表面热闹，但仔细拆开看——工具调用开销、记忆结构、安全攻击这三条线最值得工程师花时间。其他多是老调重弹。

ArXiv 这周三篇值得读完，其他可以扫个标题

先说最抢眼的：Tool Attention Is All You Need。这篇点了一个痛点——MCP（Model Context Protocol）每轮对话都要把全部工具 schema 塞进去，一次几千上万 token。你跑 5 个工具服务器，每轮光 schema 就吃掉 10k-60k tokens，KV cache 直接炸。作者提的方案是“动态工具门控 + 惰性 schema 加载”——按需才拉 schema，别一股脑全给。我不确定这能不能落地，但问题确实真实。我们团队上个月就因为工具 schema 太大被迫砍了俩 MCP server。

第二篇是 Transient Turn Injection ，讲一个多轮攻击技术。把恶意意图拆成好几个无关的对话轮，每轮单独过 safety filter，最后模型自己会把碎片拼出攻击性回答。我试过类似手法，确实能绕过 OpenAI 的 moderation。这篇把攻击形式化了，还给了评估方法——安全团队应该看看。

第三篇 StructMem 讲记忆结构。现有的 flat memory 能存东西但没法做关系推理，graph memory 推理强但构建成本高。StructMem 折中了：用结构化的 slot 来存事件关系，训练时只微调一个小 adapter。按我现在的看法，长期 agent 的记忆根本不是存储问题，而是检索策略问题。这篇没解决“怎么用记忆”，但至少把 trade-off 讲明白了。

其他论文嘛——AEL 在做 agent 跨 episode 学习，TraceScope 做 URL 交互式分类，Nemobot Games 用 LLM 做游戏 agent。都算方向正确，但还太早期，不细说了。

Google TPU 和 OpenAI GPT-5.5：大公司的“够用就好”

Google 发了 第八代 TPU ，专门为 agentic era 设计。两个芯片变种，一个专注推理，一个专注训练和推理混跑。数字我没细看，但思路是清晰的——当前 agent 编排的瓶颈不是模型参数大小，而是工具调用、多轮交互的延迟和成本。TPU 上搞专门的推理芯片，天然比 GPU 省钱。我不信 Google Cloud 会在 agent 场景上吃亏，除非他们的调度层也跟 TPU 一样硬。

OpenAI 同时发了 GPT-5.5 和 system card。名字带 .5，说明是过渡升级。我扫了 system card，安全评测里提到了很多对抗性测试，但 Transient Turn Injection 这种攻击模式还没专门 cover——也许下一版会补。实际用下来的感觉：比 GPT-4o 快，写代码时上下文保持更好，debug 场景明显少跑偏。但说“smartest model yet”这种话听听就好，每次发版都这么说。

另外 OpenAI 在 Codex 那边出了不少教学材料：Automations、Top 10 uses、Plugins and skills。看起来在 push agent 工作流自动化的用法，不光是聊天。这个方向我认可——单一 chat 窗口产出的价值太低了，只有定时跑、触发跑、多步骤编排才值回票价。

社区项目：并行 agent、记忆代理、安全代理都在跑

Zed 更新了 parallel agents ，让多个 agent 同时处理不同文件。我还没试过，但直觉上觉得这才是正确方向——不是把一个 prompt 无限放大，而是拆成并行任务各自调度。如果做得好了，IDE 里的 agent 体验会超过 Copilot。

Wuphf 是个 Karpathy 风格 wiki，但维护者是 agent。用 markdown + git 存，agent 可以自主增删改。思路不新鲜，但实现得干净。我想到一个场景：团队用这个做内部知识库，agent 自动从 slack、邮件、pr 评论里抽知识点写进去。人只需要 review 和 merge。

Endless Toil 是个带声音的 agent 演示——你写代码，agent 干活，同时发出受折磨的呻吟声。纯整活，但提醒我们一件事：agent 不好用的时候，开发者就是那个受折磨的。

有意思的是 Less human AI agents, please 这篇博客。作者觉得现在 agent 太拟人化了，又是打招呼又是假情绪。他说应该把 agent 设计成工具，而不是同事。我同意一半——太拟人确实浪费时间，但完全不拟人的 agent 在协作场景里又很难跟人建立信任。也许折中方案是“专业但无情”：像好的命令行工具一样，只输出你需要的信息，别的闭嘴。

安全相关：CrabTrap & Agent Vault

Brex 开源了 CrabTrap ，用 LLM-as-a-judge 做 HTTP proxy，拦截 agent 调用中的异常行为。比如 agent 突然要访问不该访问的 API、或者输出敏感数据。这个方向我一直在等成熟产品——目前 agent 安全基本就是靠 prompt tricks 和事后审计。CrabTrap 算是运行时防卫。

Agent Vault 更底层——一个凭证代理和保险箱。agent 不用直接持有密钥，而是通过 vault 调用。跟 HashiCorp Vault 思路类似，但专为 agent 场景优化。我猜他们会很快加速率限制和审计日志。

一些碎片

LangChain 把 Agent Builder 重命名为 LangSmith Fleet ，还发了 v0.4。他们越来越强调“舰队”概念——多个 agent 协同。但说实话，LangChain 的编排层太厚了，我更喜欢自己写 orchestrator 时只用他们的 tracing 和 eval。

Microsoft 终于开放了 Bring Your Agent to Teams 。如果你的客户就在 Teams 里，这可能是最快的部署路径之一。不过绑定太紧，我持保留态度。

最后，All your agents are going async 这篇文章写得好：现在的 agent 调用大部分是同步的，但实际业务场景里你根本不想等 agent 跑完再继续。异步编排、事件驱动才是生产级的标配。这跟并行 agent 是一个逻辑——别让一个慢调用拖死整个流程。

下周我打算多跑几个工具调用的 benchmark，看看 Tool Attention 的动态 schema 方案到底省多少。如果效果好再写一篇。

2026-W17 智能体周刊