这周最让我上头的不是 GPT-5.5,而是 MCP 税终于有人认真算了
这周 ArXiv 冒出一篇《Tool Attention Is All You Need》,标题党了点,但内容硬核:它把 MCP 那个每轮吞 10k-60k token 的开销量化了,还给了个动态门控方案。我读的时候一直点头——干过 agent 编排的人都懂,工具 schema 塞进 KV cache 那个痛。另外 OpenAI 悄摸上了 GPT-5.5,不过说实话,比起模型本身,Workspace Agents 和 Codex 的自动化功能更值得聊。LangChain 那边把 Agent Builder 改名 LangSmith Fleet,看来是要抢企业级编排的盘。还有几篇安全向的论文,比如 TTI 攻击,专打无状态审核,让人后背一凉。
ArXiv 这周三篇值得读
《Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities》 — 这篇讲一种叫 TTI 的攻击:把恶意意图分散到多轮对话里,每个单轮看起来都人畜无害,但拼起来能绕过安全审核。本质问题是很多系统的 moderation 是 stateless 的,每轮独立判断。我觉得这不仅是安全问题,也是对话架构的问题——stateful 审核成本高,stateless 又漏。按我现在看,未来 agent 框架必须内置跨轮记忆的审核层,不能用简单黑名单。
《Tool Attention Is All You Need》 — 刚才说了,它管 MCP 的开销叫 “MCP Tax”(或 Tools Tax),典型多 server 场景下每轮多出 10k-60k token。方案是用动态工具门控 + 惰性 schema 加载,只在需要时才把完整工具描述塞进 prompt。这个思路跟一些实践者的 hack 不谋而合,但人家给了理论分析和实验。
《StructMem: Structured Memory for Long-Horizon Behavior》 — 长期对话 agent 的记忆系统一直是个痛点:扁平记忆查起来快但没关系,图记忆有结构但构建维护重。StructMem 在中间找平衡,用结构化记忆捕获事件间关系。我猜最终落地会跟 graph RAG 类似,但面向 agent 场景。
OpenAI 这次更新没那么大,但有两个点我关注
GPT-5.5 发了,系统卡也出了,但我不觉得是革命性提升——按官方说法,“faster, more capable”,没提架构大改。真正有意思的是 Workspace Agents in ChatGPT 和 Codex 的 automations/plugins。
Workspace Agents 让 agent 能跨对话、跨工具做事,比如定时跑报表、触发工作流。这其实就是 “agent 长期运行” 的雏形,OpenAI 抢了 LangChain 和 AutoGPT 的饭碗。
Codex 那边出了三个教程:Automations、Top 10 uses、Plugins and skills。意思很明确,他们想让非工程师也能用 agent 干活。但问题在于,现在 agent 的可靠性还不够,三天两头挂掉,用户信任度低。OpenAI 有钱砸 infra,但 agent 层面的工程挑战不是光堆算力能解决的。
HackerNews 热帖里的几个信号
Google 第八代 TPU — 专门提了 “for the agentic era”。TPU v8 针对 agent 场景做了优化,比如低延迟推理、大 batch 支持。我猜是针对多 agent 并行推理的场景。但普通团队用不上,看看就好。
Zed 平行 agents — 在编辑器里跑多个 LLM agent 同时干活,比如一个写测试一个写文档。这个思路我挺喜欢,但现实是 agent 之间容易互相干扰(比如改同一行代码)。Zed 的解法是给每个 agent 独立 workspace。
几个 Show HN 项目 —
- wuphf: 一个 Karpathy 风格的 LLM wiki,让 agent 自己维护 Markdown + Git。理念好,但 agent 写文档的质量波动很大。
- endless-toil: 一个让你听 agent 跑代码时“受苦”的声音项目——纯整活,但挺解压。
- agent-vault: 开源凭据代理和 vault,解决 agent 需要访问各种 API key 的痛点。我觉得这才是刚需——安全地托管 agent 身份。
- CrabTrap: Brex 出的 LLM-as-a-judge HTTP 代理,拦截 agent 的不安全行为。用另一个 LLM 来 judge agent,但会不会有对抗样本?
《Less human AI agents, please》 — 这篇博文观点:别把 agent 做得太像人,它应该透明、可预测、可调试。我同意。很多 agent 产品追求 “自然交互” 导致不可控。用户要的是可靠工具,不是会装死的实习生。
《All your agents are going async》 — 讲 agent 从同步阻塞式调用转向异步协程。典型的例子:agent 发工具调用时不干等,先做别的推理。这个在需要长时间工具调用(如浏览器操作)时特别有用。
LangChain 这周动作不小
Agent Builder 改名 LangSmith Fleet — 不只是改名字,Fleet 更强调多 agent 管理的概念。他们还 pin 了 baseline experiment 功能,方便对比不同 agent 配置的效果。对于做 agent 评测的人来说很实用。
Deep Agents v0.4 — 支持更复杂的嵌套 agent,可以 agent 里套 agent。这其实把 multi-agent 复杂推到了另一个层级。好处是模块化,坏处是调试地狱。我还在观望。
Scheduled reports for Insights Agent — 定时跑报告,跟 OpenAI Codex automations 定位相似。竞争很明显了。
一个老生常谈但值得重复的点:agent 的记忆和进化
ArXiv 有几篇都围绕这个:AEL(Agent Evolving Learning)、StructMem、还有那篇讲从 research question 到 scientific workflow 的。它们都在问同一个问题:agent 能不能从行为历史中学习,而不是每次都从零开始。
AEL 那篇提了一个核心障碍:不是“记什么”而是“怎么用”。哪怕你存了历史,检索策略不对,结果就是噪声。StructMem 用结构化关系来解决。我觉得未来半年会看到更多把 RAG、记忆拓扑、在线学习揉进 agent 框架的工作。
最后说个我的偏见
这周我越来越觉得,agent 的“无状态”是最大的幻觉。无论是安全、效率还是记忆,最终都要回归状态管理。TTI 攻击、MCP 税、记忆缺陷,根源都是不把状态当回事。也许 6 个月后回头看我这话会被打脸,但现在我坚持:谁把 agent 状态管好了,谁就赢了大半个游戏。