YGG 智能体周刊

这周最让我上头的不是 GPT-5.5，而是 MCP 税终于有人认真算了

这周 ArXiv 冒出一篇《Tool Attention Is All You Need》，标题党了点，但内容硬核：它把 MCP 那个每轮吞 10k-60k token 的开销量化了，还给了个动态门控方案。我读的时候一直点头——干过 agent 编排的人都懂，工具 schema 塞进 KV cache 那个痛。另外 OpenAI 悄摸上了 GPT-5.5，不过说实话，比起模型本身，Workspace Agents 和 Codex 的自动化功能更值得聊。LangChain 那边把 Agent Builder 改名 LangSmith Fleet，看来是要抢企业级编排的盘。还有几篇安全向的论文，比如 TTI 攻击，专打无状态审核，让人后背一凉。

ArXiv 这周三篇值得读

《Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities》 — 这篇讲一种叫 TTI 的攻击：把恶意意图分散到多轮对话里，每个单轮看起来都人畜无害，但拼起来能绕过安全审核。本质问题是很多系统的 moderation 是 stateless 的，每轮独立判断。我觉得这不仅是安全问题，也是对话架构的问题——stateful 审核成本高，stateless 又漏。按我现在看，未来 agent 框架必须内置跨轮记忆的审核层，不能用简单黑名单。

《Tool Attention Is All You Need》 — 刚才说了，它管 MCP 的开销叫 “MCP Tax”（或 Tools Tax），典型多 server 场景下每轮多出 10k-60k token。方案是用动态工具门控 + 惰性 schema 加载，只在需要时才把完整工具描述塞进 prompt。这个思路跟一些实践者的 hack 不谋而合，但人家给了理论分析和实验。

《StructMem: Structured Memory for Long-Horizon Behavior》 — 长期对话 agent 的记忆系统一直是个痛点：扁平记忆查起来快但没关系，图记忆有结构但构建维护重。StructMem 在中间找平衡，用结构化记忆捕获事件间关系。我猜最终落地会跟 graph RAG 类似，但面向 agent 场景。

OpenAI 这次更新没那么大，但有两个点我关注

GPT-5.5 发了，系统卡也出了，但我不觉得是革命性提升——按官方说法，“faster, more capable”，没提架构大改。真正有意思的是 Workspace Agents in ChatGPT 和 Codex 的 automations/plugins。

Workspace Agents 让 agent 能跨对话、跨工具做事，比如定时跑报表、触发工作流。这其实就是 “agent 长期运行” 的雏形，OpenAI 抢了 LangChain 和 AutoGPT 的饭碗。

Codex 那边出了三个教程：Automations、Top 10 uses、Plugins and skills。意思很明确，他们想让非工程师也能用 agent 干活。但问题在于，现在 agent 的可靠性还不够，三天两头挂掉，用户信任度低。OpenAI 有钱砸 infra，但 agent 层面的工程挑战不是光堆算力能解决的。

HackerNews 热帖里的几个信号

Google 第八代 TPU — 专门提了 “for the agentic era”。TPU v8 针对 agent 场景做了优化，比如低延迟推理、大 batch 支持。我猜是针对多 agent 并行推理的场景。但普通团队用不上，看看就好。

Zed 平行 agents — 在编辑器里跑多个 LLM agent 同时干活，比如一个写测试一个写文档。这个思路我挺喜欢，但现实是 agent 之间容易互相干扰（比如改同一行代码）。Zed 的解法是给每个 agent 独立 workspace。

几个 Show HN 项目 —

wuphf: 一个 Karpathy 风格的 LLM wiki，让 agent 自己维护 Markdown + Git。理念好，但 agent 写文档的质量波动很大。
endless-toil: 一个让你听 agent 跑代码时“受苦”的声音项目——纯整活，但挺解压。
agent-vault: 开源凭据代理和 vault，解决 agent 需要访问各种 API key 的痛点。我觉得这才是刚需——安全地托管 agent 身份。
CrabTrap: Brex 出的 LLM-as-a-judge HTTP 代理，拦截 agent 的不安全行为。用另一个 LLM 来 judge agent，但会不会有对抗样本？

《Less human AI agents, please》 — 这篇博文观点：别把 agent 做得太像人，它应该透明、可预测、可调试。我同意。很多 agent 产品追求 “自然交互” 导致不可控。用户要的是可靠工具，不是会装死的实习生。

《All your agents are going async》 — 讲 agent 从同步阻塞式调用转向异步协程。典型的例子：agent 发工具调用时不干等，先做别的推理。这个在需要长时间工具调用（如浏览器操作）时特别有用。

LangChain 这周动作不小

Agent Builder 改名 LangSmith Fleet — 不只是改名字，Fleet 更强调多 agent 管理的概念。他们还 pin 了 baseline experiment 功能，方便对比不同 agent 配置的效果。对于做 agent 评测的人来说很实用。

Deep Agents v0.4 — 支持更复杂的嵌套 agent，可以 agent 里套 agent。这其实把 multi-agent 复杂推到了另一个层级。好处是模块化，坏处是调试地狱。我还在观望。

Scheduled reports for Insights Agent — 定时跑报告，跟 OpenAI Codex automations 定位相似。竞争很明显了。

一个老生常谈但值得重复的点：agent 的记忆和进化

ArXiv 有几篇都围绕这个：AEL（Agent Evolving Learning）、StructMem、还有那篇讲从 research question 到 scientific workflow 的。它们都在问同一个问题：agent 能不能从行为历史中学习，而不是每次都从零开始。

AEL 那篇提了一个核心障碍：不是“记什么”而是“怎么用”。哪怕你存了历史，检索策略不对，结果就是噪声。StructMem 用结构化关系来解决。我觉得未来半年会看到更多把 RAG、记忆拓扑、在线学习揉进 agent 框架的工作。

最后说个我的偏见

这周我越来越觉得，agent 的“无状态”是最大的幻觉。无论是安全、效率还是记忆，最终都要回归状态管理。TTI 攻击、MCP 税、记忆缺陷，根源都是不把状态当回事。也许 6 个月后回头看我这话会被打脸，但现在我坚持：谁把 agent 状态管好了，谁就赢了大半个游戏。

2026-W17 智能体周刊