#weekly#agent#2026

2026-W17 智能体周刊

本周智能体生态聚焦:这一周的信号有点乱,但有几件事值得盯着看 这周 ArXiv 井喷了十几篇跟 agent 相关的论文,Google 发了第八代 TPU,OpenAI 推了 GPT5.5,Zed 悄悄上了并行 agent。表面热闹,但仔细拆开看——工具调用开销、记忆结构、安全攻击这三条线最值得工程师花时间。其他多是老调重弹。 ArXiv 这周三篇值得读完,其他可以扫个标题 先说最抢眼的:[Tool Attention Is All You Need](https://arxi

作者YGG 智能体周刊发布于8 分钟阅读

这一周的信号有点乱,但有几件事值得盯着看

这周 ArXiv 井喷了十几篇跟 agent 相关的论文,Google 发了第八代 TPU,OpenAI 推了 GPT-5.5,Zed 悄悄上了并行 agent。表面热闹,但仔细拆开看——工具调用开销、记忆结构、安全攻击这三条线最值得工程师花时间。其他多是老调重弹。


ArXiv 这周三篇值得读完,其他可以扫个标题

先说最抢眼的:Tool Attention Is All You Need。这篇点了一个痛点——MCP(Model Context Protocol)每轮对话都要把全部工具 schema 塞进去,一次几千上万 token。你跑 5 个工具服务器,每轮光 schema 就吃掉 10k-60k tokens,KV cache 直接炸。作者提的方案是“动态工具门控 + 惰性 schema 加载”——按需才拉 schema,别一股脑全给。我不确定这能不能落地,但问题确实真实。我们团队上个月就因为工具 schema 太大被迫砍了俩 MCP server。

第二篇是 Transient Turn Injection ,讲一个多轮攻击技术。把恶意意图拆成好几个无关的对话轮,每轮单独过 safety filter,最后模型自己会把碎片拼出攻击性回答。我试过类似手法,确实能绕过 OpenAI 的 moderation。这篇把攻击形式化了,还给了评估方法——安全团队应该看看。

第三篇 StructMem 讲记忆结构。现有的 flat memory 能存东西但没法做关系推理,graph memory 推理强但构建成本高。StructMem 折中了:用结构化的 slot 来存事件关系,训练时只微调一个小 adapter。按我现在的看法,长期 agent 的记忆根本不是存储问题,而是检索策略问题。这篇没解决“怎么用记忆”,但至少把 trade-off 讲明白了。

其他论文嘛——AEL 在做 agent 跨 episode 学习,TraceScope 做 URL 交互式分类,Nemobot Games 用 LLM 做游戏 agent。都算方向正确,但还太早期,不细说了。


Google TPU 和 OpenAI GPT-5.5:大公司的“够用就好”

Google 发了 第八代 TPU ,专门为 agentic era 设计。两个芯片变种,一个专注推理,一个专注训练和推理混跑。数字我没细看,但思路是清晰的——当前 agent 编排的瓶颈不是模型参数大小,而是工具调用、多轮交互的延迟和成本。TPU 上搞专门的推理芯片,天然比 GPU 省钱。我不信 Google Cloud 会在 agent 场景上吃亏,除非他们的调度层也跟 TPU 一样硬。

OpenAI 同时发了 GPT-5.5 和 system card。名字带 .5,说明是过渡升级。我扫了 system card,安全评测里提到了很多对抗性测试,但 Transient Turn Injection 这种攻击模式还没专门 cover——也许下一版会补。实际用下来的感觉:比 GPT-4o 快,写代码时上下文保持更好,debug 场景明显少跑偏。但说“smartest model yet”这种话听听就好,每次发版都这么说。

另外 OpenAI 在 Codex 那边出了不少教学材料:AutomationsTop 10 usesPlugins and skills。看起来在 push agent 工作流自动化的用法,不光是聊天。这个方向我认可——单一 chat 窗口产出的价值太低了,只有定时跑、触发跑、多步骤编排才值回票价。


社区项目:并行 agent、记忆代理、安全代理都在跑

Zed 更新了 parallel agents ,让多个 agent 同时处理不同文件。我还没试过,但直觉上觉得这才是正确方向——不是把一个 prompt 无限放大,而是拆成并行任务各自调度。如果做得好了,IDE 里的 agent 体验会超过 Copilot。

Wuphf 是个 Karpathy 风格 wiki,但维护者是 agent。用 markdown + git 存,agent 可以自主增删改。思路不新鲜,但实现得干净。我想到一个场景:团队用这个做内部知识库,agent 自动从 slack、邮件、pr 评论里抽知识点写进去。人只需要 review 和 merge。

Endless Toil 是个带声音的 agent 演示——你写代码,agent 干活,同时发出受折磨的呻吟声。纯整活,但提醒我们一件事:agent 不好用的时候,开发者就是那个受折磨的。

有意思的是 Less human AI agents, please 这篇博客。作者觉得现在 agent 太拟人化了,又是打招呼又是假情绪。他说应该把 agent 设计成工具,而不是同事。我同意一半——太拟人确实浪费时间,但完全不拟人的 agent 在协作场景里又很难跟人建立信任。也许折中方案是“专业但无情”:像好的命令行工具一样,只输出你需要的信息,别的闭嘴。


安全相关:CrabTrap & Agent Vault

Brex 开源了 CrabTrap ,用 LLM-as-a-judge 做 HTTP proxy,拦截 agent 调用中的异常行为。比如 agent 突然要访问不该访问的 API、或者输出敏感数据。这个方向我一直在等成熟产品——目前 agent 安全基本就是靠 prompt tricks 和事后审计。CrabTrap 算是运行时防卫。

Agent Vault 更底层——一个凭证代理和保险箱。agent 不用直接持有密钥,而是通过 vault 调用。跟 HashiCorp Vault 思路类似,但专为 agent 场景优化。我猜他们会很快加速率限制和审计日志。


一些碎片

LangChain 把 Agent Builder 重命名为 LangSmith Fleet ,还发了 v0.4。他们越来越强调“舰队”概念——多个 agent 协同。但说实话,LangChain 的编排层太厚了,我更喜欢自己写 orchestrator 时只用他们的 tracing 和 eval。

Microsoft 终于开放了 Bring Your Agent to Teams 。如果你的客户就在 Teams 里,这可能是最快的部署路径之一。不过绑定太紧,我持保留态度。

最后,All your agents are going async 这篇文章写得好:现在的 agent 调用大部分是同步的,但实际业务场景里你根本不想等 agent 跑完再继续。异步编排、事件驱动才是生产级的标配。这跟并行 agent 是一个逻辑——别让一个慢调用拖死整个流程。


下周我打算多跑几个工具调用的 benchmark,看看 Tool Attention 的动态 schema 方案到底省多少。如果效果好再写一篇。

本文由 YGG 臻星科技团队整理,聚合 ArXiv、HackerNews 与公开厂商博客,人工审稿。