════ 2026.05.31 ════
今日要点
详细内容
ENTRY 001/019
[ XAI · CODINGAGENT · FRONTIERMODEL · API · MCP ]
xAI Grok Build 0.1 进入 API 公测,定位高速 agentic coding 模型
(Grok Build 0.1 on API)
xAI 在 5 月 28 日把 grok-build-0.1 放入 xAI API public beta,定位为 Grok Build CLI 同源的高速 coding model。官方给出 100+ tokens/s、$1/M input tokens 与 $2/M output tokens 的价格,并强调模型针对 web development、debugging、MCP 和 agentic coding harness 训练。
Grok Build 0.1 的关键不是又多一个 coding model,而是 xAI 明确把“coding agent 用模型”作为 API 商品拆出来。模型被推荐用于 Grok Build、Cursor、Hermes Agent、OpenClaw、Kilo Code、OpenCode 等 harness,这说明它的目标接口不是普通 chat,而是会执行工具、处理 diff、调用 MCP、长期跑任务的 agent loop。
价格和速度也有选型意义。100+ tokens/s 与 $1/$2 per million tokens 让它更像 coding agent 的 fast execution / subagent 模型,而不是只跑最高难度设计任务的旗舰 reasoning 模型。对多模型 coding stack 来说,这类模型适合放在“快速实现、局部调试、工具调用密集”的路由层,复杂架构判断再交给更慢更强的主模型。
ENTRY 002/019
[ OPENAI · CODEX · COMPUTERUSE · CODINGAGENT · WINDOWS ]
Codex 在 Windows 补齐 Computer Use,OpenAI 同步发布内部使用模式
(Codex Computer Use on Windows and How OpenAI uses Codex)
Codex app 在 Windows 11 上加入 Computer Use 与移动端远程访问,可以通过 @computer 或指定 app 让 agent 使用本机应用、文件和开发资源,完成测试、bug hunting 或审阅任务。OpenAI 同期发布内部使用 Codex 的实践材料,覆盖 code understanding、refactoring、performance optimization、test coverage、task queue、AGENTS.md 持久上下文等工作流。
过去 coding agent 的主战场多在 cloud sandbox、IDE extension 或终端。Windows Computer Use 把 Codex 的执行面扩到真实桌面环境,意味着 agent 可以测试 GUI、使用本地文件、检查应用行为,而不是只在 repo 和 shell 内行动。对企业桌面软件、Windows-only 工具链、Electron / native app 测试,这比纯云端 PR agent 更贴近实际用户环境。
OpenAI 的内部实践材料也值得读,因为它把 Codex 定位成轻量 backlog 与并行工程 worker,而不是“替代开发者的万能程序员”。其中最工程化的建议是先用 Ask Mode 形成计划,再切 Code Mode;通过 startup script、环境变量、internet access 降低错误率;用 AGENTS.md 提供持久项目上下文。这些做法和当前 repo 级 agent 的最佳实践一致:agent 质量不只取决于模型,还取决于环境、上下文、任务粒度和验证回路。
ENTRY 003/019
[ CLAUDECODE · CODINGAGENT · TELEMETRY · PLUGIN · AGENTGOVERNANCE ]
Claude Code v2.1.157:plugin auto-load、agent routing 与 OTEL tool telemetry 下沉到客户端
(Claude Code v2.1.157)
Claude Code v2.1.157 增加 .claude/skills plugin 自动加载、claude plugin init 脚手架、settings.json 的 agent 字段生效、EnterWorktree 会话内切换,以及 OTEL_LOG_TOOL_DETAILS=1 时导出 bash command、MCP/skill name 等 tool parameters。此前 5 月 27 日版本还加入 fallback model、plugin marketplace allowlist、skill frontmatter disallowed-tools 与 OTEL entrypoint 等 operator controls。
Claude Code 这组变化说明 coding agent 已经进入“客户端也要像生产系统一样治理”的阶段。plugin 不再只依赖 marketplace,agent dispatch 不再只靠临时 prompt,OTEL 不再只看 token usage,而是开始记录 tool decision 级别的参数。这些都是团队把 agent 放进日常工程流后自然需要的能力:谁调用了什么工具、哪个 skill 生效、哪个 agent 身份执行、出了问题能不能追踪。
disallowed-tools 和 plugin marketplace allowlist 的方向尤其重要。skill 一旦变成可分发资产,就会带来 supply-chain 和权限边界问题;把工具禁用规则写进 skill frontmatter,把可推荐 marketplace 交给管理员控制,比单纯依赖用户批准弹窗更接近企业部署需要。它也呼应 NVIDIA verified skills 和 SkillOpt 这类工作:agent 能力包正在变成可审计、可路由、可优化的工程对象。
ENTRY 004/019
[ LLM · EDGEAI · TOOLUSE · MINICPM · 开源模型 ]
MiniCPM5-1B:1B on-device 模型内置 131K context、tool calling 与 RL+OPD
(MiniCPM5-1B)
OpenBMB 发布 MiniCPM5-1B,1.08B 参数、24 层、GQA 16Q/2KV、131,072 context,面向 on-device、本地部署和资源受限 agent。模型同一 checkpoint 支持 Think / No Think chat template,SGLang 提供 minicpm5 tool-call parser,并通过 RL + OPD 在数学、代码和指令任务上平均提升 16 分、过长响应率下降 29 个百分点。
MiniCPM5-1B 的价值在于它把“本地小模型”从简单 chat 推向 agent substrate。1B 级模型通常被用作 router、摘要器、低风险助手或本地隐私层,但 MiniCPM5-1B 明确面向 tool calling、coding agent、长上下文和 hybrid reasoning,这使它可以承担更多边缘 agent 的前置任务:本地解析、工具参数生成、低成本草拟、隐私过滤和快速校验。
训练 recipe 也很有参考意义。团队把 base training、mid-training、SFT、RL、On-Policy Distillation 串成完整小模型后训练流程,并释放 UltraData 相关数据。RL teacher 再通过 OPD 蒸馏回单一 release model,是一种把多任务 teacher 能力压缩到本地模型的路线。对不能在端侧跑大模型的产品,类似 recipe 可能比继续追逐 7B/14B 模型更实际。
ENTRY 005/019
[ MULTIMODAL · VLM · OPENWEIGHTS · STEPFUN · HFMODELS ]
Step-3.7-Flash:201B 多模态开放模型进入 HF 热榜
(Step-3.7-Flash)
StepFun 的 Step-3.7-Flash 在 Hugging Face 热门模型中靠前,模型卡显示 201B parameters、Apache 2.0、image-text-to-text / multimodal / MoE 标签,并已被 NVIDIA 技术博客作为 enterprise-ready multimodal AI 部署对象介绍。它面向视觉语言理解、推理和多模态 agent 场景。
Step-3.7-Flash 代表另一个方向:不是把 agent 能力压进小模型,而是把大规模多模态模型开放给部署栈和企业 GPU 生态。多模态 agent 要处理截图、文档、图像、视频帧和文本任务,单纯 text LLM 的工具调用能力不够,必须让感知和推理在同一模型或紧耦合模型组里完成。
值得注意的是它同时出现在 HF 热榜和 NVIDIA 企业部署内容里。前者说明社区开始试用,后者说明厂商在优化可运行路径。对开发者来说,真正重要的不是参数规模,而是它能否在 vLLM / TensorRT-LLM / NIM 等 serving 路径上以可接受延迟跑起来,并接入现有多模态 routing、safety 和 observability。
ENTRY 006/019
[ DOCUMENTAI · OCR · VLM · PADDLEOCR · 多模态 ]
PaddleOCR-VL-1.6:文档智能模型继续向 layout / table / formula / chart 解析统一
(PaddleOCR-VL-1.6)
PaddlePaddle 发布 PaddleOCR-VL-1.6,模型标签覆盖 OCR、document-parse、layout、table、formula、chart、seal、spotting 与 multilingual document understanding,并基于 ERNIE4.5 / PaddleOCR-VL 路线继续强化文档解析。模型创建于 5 月 27 日,已进入 Hugging Face trending。
Doc AI 是企业多模态落地里最容易被低估的基础能力。RAG 系统如果只能抽纯文本,遇到表格、图表、公式、盖章、版面层级、多语言 PDF 时就会丢失证据结构;而 agent 如果要审合同、读发票、分析报表或处理医学文档,必须知道答案来自哪个区域、哪个表格单元或哪个视觉元素。
PaddleOCR-VL-1.6 的价值在于把 OCR 和 layout-aware parsing 继续融合到一个开源模型路径中,而不是让工程团队拼接 OCR、table extractor、chart parser 和 VLM captioner。它和 CiteVQA 这类 evidence attribution benchmark 形成闭环:模型不仅要读懂文档,还要能让下游系统追溯视觉证据。
ENTRY 007/019
[ AGENT · SKILL · 优化 · MICROSOFTRESEARCH · 论文 ]
SkillOpt:把自然语言 agent skill 当作可训练外部参数
(SkillOpt: Executive Strategy for Self-Evolving Agent Skills)
Microsoft Research 提出 SkillOpt,把 skill document 当作 frozen agent 的外部状态进行文本空间优化。优化器模型把 scored rollouts 转成受限 add/delete/replace edits,只有 held-out validation score 严格提升才接受;在 6 个 benchmark、7 个 target model、3 个 harness(direct chat、Codex、Claude Code)上,52 个评估单元全部 best 或 tied。
agent skill 过去常被当作手写提示词或一次性生成的说明文档。SkillOpt 的核心转变是把 skill 看成“可训练但人类可读”的参数:模型权重不动,运行时额外模型调用不增加,优化发生在部署前的 skill 文本上。这非常适合企业场景,因为 skill 可以代码审查、版本管理、回滚和迁移,比微调权重更容易治理。
结果也很强。论文报告在 GPT-5.5 上,SkillOpt 相比 no-skill 平均提升 direct chat +23.5、Codex loop +24.8、Claude Code +19.1,并且优化出的 skill 能跨模型规模、跨 Codex / Claude Code execution environment 和相近数学 benchmark 迁移。它把“从轨迹中提炼流程知识”变成可验证优化问题,而不是依赖 prompt engineer 直觉。
ENTRY 008/019
[ ROBOTICS · VLA · EMBODIEDAI · 开源模型 · 论文 ]
MolmoAct2:开放 VLA 模型把 embodied reasoning、action tokenizer 与低延迟推理打包发布
(MolmoAct2: Action Reasoning Models for Real-world Deployment)
Ai2 / UW 等团队发布 MolmoAct2,面向真实机器人部署的 fully open action reasoning model。论文包括 MolmoER embodied-reasoning VLM、3.3M spatial/embodied corpus、720 小时 bimanual teleoperation 数据集、OpenFAST action tokenizer、flow-matching continuous-action expert,以及 MolmoThink adaptive-depth reasoning。
VLA 模型的实际瓶颈一直不是“能否在 demo 里抓起物体”,而是开放性、硬件成本、动作表示、延迟和真实场景泛化。MolmoAct2 的贡献是把这些问题作为系统工程一起处理:用 MolmoER 强化空间/embodied reasoning,用 OpenFAST 统一动作 tokenization,用 flow-matching expert 接连续动作,再用 per-layer KV-cache conditioning 接到离散 VLM。
MolmoThink 的 adaptive-depth reasoning 也很实用。机器人每个 timestep 都重新深度推理会带来不可接受延迟;只对变化区域重预测 depth tokens,可以保留几何 grounding,同时降低推理成本。对正在做机器人、实验室自动化或 embodied agent 的团队,这类开源 VLA release 比封闭 demo 更有价值,因为模型权重、训练代码和数据路径都能被复现和改造。
ENTRY 009/019
[ DOCUMENTAI · VQA · GROUNDING · 评测 · 论文 ]
CiteVQA:Doc-VQA 开始评估“答案正确且证据区域正确”
(CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence)
OpenDataLab 提出 CiteVQA,要求模型在回答文档问题时同时给出 element-level bounding-box citations,并用 Strict Attributed Accuracy 同时评估答案与证据区域。数据集包含 711 份 PDF、1,897 个问题、7 个领域、2 种语言,平均每份文档 40.6 页;20 个 MLLM 审计显示 attribution hallucination 普遍存在,最强 Gemini-3.1-Pro-Preview 的 SAA 也只有 76.0,最强开源 MLLM 仅 22.5。
文档智能最危险的失败不是答错,而是答对了但引用错了。法律、金融、医疗、审计等场景需要知道结论来自哪段条款、哪格表格、哪张图,而当前 Doc-VQA benchmark 通常只看 final answer,掩盖了“模型撞对答案但证据虚构”的问题。CiteVQA 把这一点做成可量化指标。
这会直接影响企业 RAG 和 document agent 的评测方式。未来文档系统不能只报告 exact match 或 LLM judge answer quality,还要记录 citation region、bbox overlap、证据链完整性。PaddleOCR-VL、LocateAnything、CiteVQA 这几条线放在一起看,document AI 正从“抽文本给 LLM”转向“可定位、可验证、可审计的视觉证据系统”。
ENTRY 010/019
[ MULTIMODALAGENT · SEARCH · RL · GRPO · 论文 ]
OpenSearch-VL:开源多模态 deep search agent 的数据、工具和 RL recipe
(OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents)
Tencent Hunyuan / 上海科技大学等团队提出 OpenSearch-VL,面向多模态 deep search agent 的开放训练 recipe。它构建 SearchVL-SFT-36k 与 SearchVL-RL-8k 数据,工具环境统一 text search、image search、OCR、crop、sharpen、super-resolution、perspective correction,并提出 multi-turn fatal-aware GRPO,七个 benchmark 平均提升超过 10 分。
多模态 deep search 的难点是模型既要看图,又要搜索外部知识,还要在多轮工具失败后继续保持可训练信号。OpenSearch-VL 的数据构造用了 Wikipedia path sampling、fuzzy entity rewriting 和 source-anchor visual grounding,目的就是避免 agent 一步检索到答案或靠文本捷径完成任务。
multi-turn fatal-aware GRPO 是更值得关注的方法点。工具调用一旦失败,后续 trajectory 可能全被污染;如果直接把整条 rollout 作为负样本,会伤害失败前有用的 reasoning。论文用 post-failure token mask 和 one-sided advantage clamping 保留前半段信号,这对 browser agent、document agent、robot agent 这类工具链不稳定系统都有可迁移价值。
ENTRY 011/019
[ AGENTMEMORY · PRIVACY · EDGEAI · PERSONALAI · 论文 ]
MemPrivacy:edge-cloud agent 记忆的可逆隐私占位机制
(MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents)
MemPrivacy 针对 edge-cloud personalized memory,先在端侧识别隐私敏感 span,再用 type-aware placeholders 替换给云端 memory processing,必要时在本地恢复原值。论文构建 MemPrivacy-Bench,覆盖 200 个用户与 52k+ privacy instances,四级 privacy taxonomy,并报告在多种 memory systems 上 utility loss 控制在 1.6% 以内。
agent 记忆的核心矛盾是:云端模型更强,但用户长期记忆里最有价值的信息往往也最敏感。传统 masking 把敏感值替换成 ***,隐私是保住了,但模型无法形成“同一类实体、同一类偏好、同一类约束”的语义记忆。MemPrivacy 的 type-aware placeholder 把真实值留在本地,把语义结构留给云端,是更实用的折中。
这类机制会成为 personal AI 和 enterprise assistant 的底层组件。用户希望模型记住“我的主治医生”“我的客户合同”“我的内部系统账号”,但不希望这些具体值进入云端长期状态。MemPrivacy 的端侧识别、云侧记忆、本地恢复模式,和 Unabyss、OpenHuman、ContextPool 这类 persistent context 工具属于同一个趋势:长期上下文必须变成可控数据系统,而不是聊天记录自然堆积。
ENTRY 012/019
[ DIFFUSION · SAMPLING · IMAGEGENERATION · 推理优化 · 论文 ]
Colored Noise Diffusion Sampling:无需重训的 frequency-aware diffusion sampler
(Colored Noise Diffusion Sampling)
CNS 把 diffusion sampling 中的白噪声注入改为 timestep- 与 frequency-dependent 的 colored noise schedule,根据频段完成度 gamma(f,t) 把有限随机能量重新分配给尚未解析的频带。它是 plug-and-play inference-time sampler substitution,无需重训,在 ImageNet-256 上把 SiT-XL/2 unguided FID 从 8.26 降到 6.27,JiT-B/16 从 32.39 降到 26.69,JiT-H/16 从 11.88 降到 8.31,并报告可用于 SiT、JiT、FLUX 等架构。
diffusion model 的 spectral bias 很常见:低频结构先成形,高频细节后出现。标准 SDE solver 在每一步平均注入 white noise,相当于把能量浪费在已经完成的频段上。CNS 的思路是把 sampling 当作 frequency-decoupled energy transfer,在保证全局 variance-preserving 的前提下,把噪声预算动态转给落后的频段。
这类 inference-time 方法对开源图像生态特别有价值。训练一个新模型昂贵且不可复制,但换 sampler 可以直接落到 ComfyUI、Diffusers 或自研生成服务里。如果 CNS 在更多 prompt、分辨率和 video/image-editing 任务上稳定,它会成为类似 scheduler / sampler 选择的基础优化项,而不是单独模型发布。
ENTRY 013/019
[ 数学 · BENCHMARK · REASONING · LLM评测 · 论文 ]
Soohak:439 个数学家原创研究级问题评测 frontier reasoning
(Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs)
Soohak 由 64 位数学家从零新写 439 个研究级数学问题,分为 Challenge 与 Refusal 两类。Gemini-3-Pro、GPT-5、Claude-Opus-4.5 在 Challenge 子集分别达到 30.4%、26.4%、10.4%,Qwen3-235B、GPT-OSS-120B、Kimi-2.5 等开源模型低于 15%;Refusal 子集没有模型超过 50%。
随着 frontier model 已经在 IMO 级任务上接近金牌水平,研究级数学评测需要从“解难题”升级到“知道什么时候问题不成立、何时应拒答”。Soohak 的 refusal subset 很重要,因为数学研究里识别 ill-posed problem 和不充分条件,本身就是能力的一部分。一个模型如果对错误题目也给出自信证明,在实际科研中比答错更危险。
数据集暂缓公开以防污染,只开放评估请求,这也反映了新一代 benchmark 的现实困境:公开数据越快,越容易进入训练集;不公开又影响复现。对 AI4Math 方向,Soohak 提供的信号是当前 frontier reasoning 仍有巨大 headroom,尤其在研究级问题建模和拒答校准上。
ENTRY 014/019
[ LANGUAGEMODEL · DIFFUSION · 架构 · 非自回归 · 论文 ]
Cola DLM:用连续 latent diffusion 重新定义语言生成路径
(Continuous Latent Diffusion Language Model)
Cola DLM 提出 hierarchical latent diffusion language model:先用 Text VAE 学稳定 text-to-latent mapping,再用 block-causal DiT 在连续 latent space 建模 global semantic prior,最后 conditional decoding 回文本。论文在约 2B 参数 matched autoregressive / LLaDA baseline、8 个 benchmark 与约 2000 EFLOPs scaling curve 上验证其生成质量和扩展行为。
自回归 next-token prediction 是当前 LLM 的默认范式,但它并不是文本生成的唯一结构。Cola DLM 把全局语义组织和局部文本实现拆开:diffusion prior 负责连续 latent 中的语义运输,decoder 负责把 latent 还原成文本。这种层级分解更接近图像/视频生成里的 latent diffusion,也为跨文本和连续模态统一建模提供路径。
短期内它不会替代主流 autoregressive LLM,因为工具调用、流式输出、长上下文和 KV cache 生态都围绕 token-by-token generation 建成。但从研究角度,Cola DLM 说明非自回归/扩散式语言建模正在从 toy setup 走向可比较 scaling curve。未来如果能解决可控解码、事实性和交互延迟,它可能成为生成长文本、计划草稿或多模态 latent planning 的新候选。
ENTRY 015/019
[ INFERENCE · SERVING · NVIDIA · DYNAMO · 仿真 ]
NVIDIA DynoSim:用 Dynamo twin 在本地快速扫 LLM serving Pareto frontier
(DynoSim: Simulating the Pareto Frontier)
NVIDIA 发布 DynoSim,一个面向 NVIDIA Dynamo serving stack 的 workload-driven discrete-event simulation。它组合 engine forward-pass timing、Mocker scheduler cores、Router、Planner、KV cache effects 与 workload traces,在 Apple M4 MacBook Air 单线程 Rust offline replay 中,用 2.41 秒模拟 23,608-request Mooncake trace、60.1 分钟 serving window,约 1,500x faster than real time。
LLM serving 调优很难靠直觉,因为 backend、tensor parallel、prefill/decode split、worker count、scheduler、routing、KV cache、autoscaling 和 topology 会互相影响。真实 GPU 实验成本高,而且单点优化可能只是把瓶颈挪到别处。DynoSim 的价值是先在 simulation 里扫几千个配置,再把少数候选拿到真硬件验证。
这和传统系统里的 capacity planning / trace replay 很像,但 LLM serving 多了 KV cache、prefill/decode 分离和动态 batching 等特有变量。对大规模推理团队,类似 simulate-then-verify 流程会越来越必要,因为模型和请求分布变化太快,靠人工经验维护 routing 和 cache policy 很难跟上。
ENTRY 016/019
[ AGENT · WEBAGENT · FIRECRAWL · MONITORING · API ]
Firecrawl `/monitor`:把网页变化检测变成 agent 可订阅事件
(Introducing /monitor: Notify AI agents when the web changes)
Firecrawl 发布 /monitor,把定时抓取、snapshot 存储、diff、webhook retry 与 noise filtering 封装成一个 endpoint,只在页面或站点出现 meaningful change 时通知 agent。典型用途包括竞品价格、商品目录、招聘页、市场信息、文档更新和站点内容监控。
Web agent 的一个长期问题是“何时该行动”。如果 agent 每次都主动搜索,成本高、延迟高、还容易漏掉变化;如果靠 cron 抓页面,开发者要自己处理 snapshot、diff、去噪和重试。/monitor 把网页变化变成 webhook-style event,适合让 agent 从 polling 模式转向 event-driven 模式。
这对长期运行 agent 尤其有用。比如采购 agent 不必每天重读所有供应商页面,而是在价格或 SKU 变化时被唤醒;文档 agent 不必全量扫描 docs,而是在 API changelog 改动时更新内部知识库。它不是 frontier model,但属于 agent infrastructure 的关键拼图:让外部世界变化以结构化事件进入 agent loop。
ENTRY 017/019
[ GITHUB · AGENTFRAMEWORK · MCP · OBSERVABILITY · 开源工具 ]
LightAgent v0.7.0:轻量 agent framework 加入 trace observability 与结构化运行事件
(LightAgent)
LightAgent 是一个轻量开源 agent framework,支持 memory、MCP、skills、multi-agent collaboration、tree-of-thought reasoning,并输出 OpenAI-compatible streaming APIs。5 月 29 日 v0.7.0 development 加入 opt-in trace observability、structured run/model/tool/error events、agent.export_trace() 与 prompt-safe model request summaries;5 月 28 日 v0.6.5 加入 structured run results、structured streaming events、catchable errors 和 tool argument validation。
LightAgent 不是最大或最重的 agent framework,但它反映了开源 agent runtime 的现实需求:轻量、可嵌入、OpenAI-compatible、MCP 接入、技能组合和可观测性。v0.7.0 的 trace observability 很关键,因为只要 agent 能调用工具,开发者就需要知道每一步模型请求、工具参数、错误、重试和最终结果如何串起来。
与 LangGraph 这类 graph-first 框架不同,LightAgent 更像一个小型可组合 runtime。它适合个人项目、插件系统或轻量服务,而不是一开始就引入复杂 orchestration 平台。当前开源 agent 工具的分化正在变清楚:有的做 workflow graph,有的做安全 sandbox,有的做 tracing,有的做 skill runtime;LightAgent 选择的是低门槛 runtime + observability。
ENTRY 018/019
[ GITHUB · AGENTRUNTIME · DISTRIBUTEDAGENTS · GOOGLE · 开源工具 ]
Google AX:开源 distributed agent runtime,路线图指向 subagent suspend/resume 与 approvals
(google/ax)
Google 开源 AX,一个 distributed agent runtime,v0.1.0 于 5 月 20 日发布。README 路线图包括 Antigravity as built-in harness、BYOH、subagent suspension/resumption、subagent tool call approvals、resumption protocol 改进,并提到 GKE 团队在 isolation、resumption 与 job scheduling 上的贡献。
AX 值得关注是因为它把 agent runtime 的问题放在分布式系统语境里,而不是只做 prompt orchestration。长任务 agent 需要暂停、恢复、调度、隔离、审批和跨 worker 状态迁移,这些问题更接近 job scheduler / workflow engine / sandbox platform,而不是聊天机器人。
路线图里的 subagent suspension/resumption 和 tool call approvals 是核心。多 agent 并行执行时,最大风险不是模型不会写代码,而是子任务执行状态不可恢复、工具调用权限不可控、失败后无法接回上下文。Google 把 GKE isolation 和 job scheduling 经验引入 agent runtime,说明大厂正在把 agent 当作长期运行 workload 管理。
ENTRY 019/019
[ AGENT · HARNESS · SURVEY · DEVOPS · 论文 ]
Code as Agent Harness:把 code 视为 agent 推理、行动、记忆和验证的统一 substrate
(Code as Agent Harness)
这篇 survey 把 code 从“模型输出目标”重新定义为 agent harness:连接 reasoning、action、environment modeling、execution-based verification、planning、memory、tool use、feedback control 与 multi-agent coordination 的统一基础设施。论文覆盖 coding assistant、GUI/OS automation、embodied agents、scientific discovery、personalization、DevOps 和 enterprise workflow 等应用,并提出 evaluation、verification、shared state 与 human oversight 等开放问题。
这篇不是新算法,但它给当前 agent 工程提供了一个有用框架:真正让 agent 可用的往往不是单次回答,而是围绕代码形成的可执行状态、工具接口、验证脚本、测试环境、日志、配置和协作协议。代码既是 agent 写的东西,也是 agent 运行、观察、记忆和改进自己的环境。
把它和 Codex、Claude Code、Grok Build、AX、SkillOpt 放在一起看,趋势很清楚:agent 的核心资产正在从 prompt 迁移到 harness。谁能提供更好的可执行环境、状态管理、权限边界、评测回路和 skill/tool 编排,谁就能把同一个 frontier model 用得更稳定。
其他值得关注