一日三饭 | HARNESS

← /harness

════ 2026.05.31 ════

今日要点

> coding agent 平台层继续向“可远程、可治理、可观测”收敛：xAI 把 Grok Build 0.1 作为 API 公测模型开放，主打 agentic coding、MCP 与 100+ tokens/s；OpenAI Codex 在 Windows 侧补齐 Computer Use 与移动端远程任务；Claude Code v2.1.157 则把 plugin auto-load、agent routing 与 OTEL tool telemetry 下沉到客户端控制面。
> 小模型和 multimodal 模型的工程目标更明确：MiniCPM5-1B 把 131K context、tool calling、Think/No Think 模式和 RL+OPD 放进 1B on-device 模型；Step-3.7-Flash 以 201B 参数开放权重切入多模态推理；PaddleOCR-VL-1.6 继续把文档 OCR / layout / table / formula 解析推向可部署模型。
> agent skill 正在从“提示词资产”变成可优化、可验证的软件对象：Microsoft SkillOpt 把自然语言 skill 当作可训练外部参数，在 Codex / Claude Code / direct chat 三类 harness 中稳定提升；Claude Code 与 NVIDIA verified skills 的近期方向也都在强化 skill provenance、工具约束和审计信号。
> 研究侧重点从“更会答”转向“更会证据、搜索、拒答和长期记忆”：CiteVQA 要求 Doc-VQA 给出 element-level bounding-box citation；OpenSearch-VL 开源多模态 deep search 训练 recipe；Soohak 把研究级数学评测扩展到 439 个新题并加入 refusal subset；MemPrivacy 给 edge-cloud agent 记忆系统提供可逆隐私占位机制。
> 推理与生成基础设施继续走向可模拟和 inference-time 优化：NVIDIA DynoSim 用 Dynamo twin 在本地 2.41 秒模拟 60.1 分钟、23,608 请求的 serving trace；Colored Noise Diffusion Sampling 用频率依赖噪声调度在无需重训的情况下改进 SiT / JiT / FLUX 等 diffusion sampler。

详细内容

ENTRY 001/019

[ XAI · CODINGAGENT · FRONTIERMODEL · API · MCP ]

xAI Grok Build 0.1 进入 API 公测，定位高速 agentic coding 模型

(Grok Build 0.1 on API)

→ xAI

xAI 在 5 月 28 日把 grok-build-0.1 放入 xAI API public beta，定位为 Grok Build CLI 同源的高速 coding model。官方给出 100+ tokens/s、$1/M input tokens 与 $2/M output tokens 的价格，并强调模型针对 web development、debugging、MCP 和 agentic coding harness 训练。

Grok Build 0.1 的关键不是又多一个 coding model，而是 xAI 明确把“coding agent 用模型”作为 API 商品拆出来。模型被推荐用于 Grok Build、Cursor、Hermes Agent、OpenClaw、Kilo Code、OpenCode 等 harness，这说明它的目标接口不是普通 chat，而是会执行工具、处理 diff、调用 MCP、长期跑任务的 agent loop。

价格和速度也有选型意义。100+ tokens/s 与 $1/$2 per million tokens 让它更像 coding agent 的 fast execution / subagent 模型，而不是只跑最高难度设计任务的旗舰 reasoning 模型。对多模型 coding stack 来说，这类模型适合放在“快速实现、局部调试、工具调用密集”的路由层，复杂架构判断再交给更慢更强的主模型。

ENTRY 002/019

[ OPENAI · CODEX · COMPUTERUSE · CODINGAGENT · WINDOWS ]

Codex 在 Windows 补齐 Computer Use，OpenAI 同步发布内部使用模式

(Codex Computer Use on Windows and How OpenAI uses Codex)

→ The Decoder · → OpenAI PDF

Codex app 在 Windows 11 上加入 Computer Use 与移动端远程访问，可以通过 @computer 或指定 app 让 agent 使用本机应用、文件和开发资源，完成测试、bug hunting 或审阅任务。OpenAI 同期发布内部使用 Codex 的实践材料，覆盖 code understanding、refactoring、performance optimization、test coverage、task queue、AGENTS.md 持久上下文等工作流。

过去 coding agent 的主战场多在 cloud sandbox、IDE extension 或终端。Windows Computer Use 把 Codex 的执行面扩到真实桌面环境，意味着 agent 可以测试 GUI、使用本地文件、检查应用行为，而不是只在 repo 和 shell 内行动。对企业桌面软件、Windows-only 工具链、Electron / native app 测试，这比纯云端 PR agent 更贴近实际用户环境。

OpenAI 的内部实践材料也值得读，因为它把 Codex 定位成轻量 backlog 与并行工程 worker，而不是“替代开发者的万能程序员”。其中最工程化的建议是先用 Ask Mode 形成计划，再切 Code Mode；通过 startup script、环境变量、internet access 降低错误率；用 AGENTS.md 提供持久项目上下文。这些做法和当前 repo 级 agent 的最佳实践一致：agent 质量不只取决于模型，还取决于环境、上下文、任务粒度和验证回路。

ENTRY 003/019

[ CLAUDECODE · CODINGAGENT · TELEMETRY · PLUGIN · AGENTGOVERNANCE ]

Claude Code v2.1.157：plugin auto-load、agent routing 与 OTEL tool telemetry 下沉到客户端

(Claude Code v2.1.157)

→ NewReleases · → TheRouter

Claude Code v2.1.157 增加 .claude/skills plugin 自动加载、claude plugin init 脚手架、settings.json 的 agent 字段生效、EnterWorktree 会话内切换，以及 OTEL_LOG_TOOL_DETAILS=1 时导出 bash command、MCP/skill name 等 tool parameters。此前 5 月 27 日版本还加入 fallback model、plugin marketplace allowlist、skill frontmatter disallowed-tools 与 OTEL entrypoint 等 operator controls。

Claude Code 这组变化说明 coding agent 已经进入“客户端也要像生产系统一样治理”的阶段。plugin 不再只依赖 marketplace，agent dispatch 不再只靠临时 prompt，OTEL 不再只看 token usage，而是开始记录 tool decision 级别的参数。这些都是团队把 agent 放进日常工程流后自然需要的能力：谁调用了什么工具、哪个 skill 生效、哪个 agent 身份执行、出了问题能不能追踪。

disallowed-tools 和 plugin marketplace allowlist 的方向尤其重要。skill 一旦变成可分发资产，就会带来 supply-chain 和权限边界问题；把工具禁用规则写进 skill frontmatter，把可推荐 marketplace 交给管理员控制，比单纯依赖用户批准弹窗更接近企业部署需要。它也呼应 NVIDIA verified skills 和 SkillOpt 这类工作：agent 能力包正在变成可审计、可路由、可优化的工程对象。

ENTRY 004/019

[ LLM · EDGEAI · TOOLUSE · MINICPM · 开源模型 ]

MiniCPM5-1B：1B on-device 模型内置 131K context、tool calling 与 RL+OPD

(MiniCPM5-1B)

→ Hugging Face

OpenBMB 发布 MiniCPM5-1B，1.08B 参数、24 层、GQA 16Q/2KV、131,072 context，面向 on-device、本地部署和资源受限 agent。模型同一 checkpoint 支持 Think / No Think chat template，SGLang 提供 minicpm5 tool-call parser，并通过 RL + OPD 在数学、代码和指令任务上平均提升 16 分、过长响应率下降 29 个百分点。

MiniCPM5-1B 的价值在于它把“本地小模型”从简单 chat 推向 agent substrate。1B 级模型通常被用作 router、摘要器、低风险助手或本地隐私层，但 MiniCPM5-1B 明确面向 tool calling、coding agent、长上下文和 hybrid reasoning，这使它可以承担更多边缘 agent 的前置任务：本地解析、工具参数生成、低成本草拟、隐私过滤和快速校验。

训练 recipe 也很有参考意义。团队把 base training、mid-training、SFT、RL、On-Policy Distillation 串成完整小模型后训练流程，并释放 UltraData 相关数据。RL teacher 再通过 OPD 蒸馏回单一 release model，是一种把多任务 teacher 能力压缩到本地模型的路线。对不能在端侧跑大模型的产品，类似 recipe 可能比继续追逐 7B/14B 模型更实际。

ENTRY 005/019

[ MULTIMODAL · VLM · OPENWEIGHTS · STEPFUN · HFMODELS ]

Step-3.7-Flash：201B 多模态开放模型进入 HF 热榜

(Step-3.7-Flash)

→ Hugging Face · → NVIDIA Blog

StepFun 的 Step-3.7-Flash 在 Hugging Face 热门模型中靠前，模型卡显示 201B parameters、Apache 2.0、image-text-to-text / multimodal / MoE 标签，并已被 NVIDIA 技术博客作为 enterprise-ready multimodal AI 部署对象介绍。它面向视觉语言理解、推理和多模态 agent 场景。

Step-3.7-Flash 代表另一个方向：不是把 agent 能力压进小模型，而是把大规模多模态模型开放给部署栈和企业 GPU 生态。多模态 agent 要处理截图、文档、图像、视频帧和文本任务，单纯 text LLM 的工具调用能力不够，必须让感知和推理在同一模型或紧耦合模型组里完成。

值得注意的是它同时出现在 HF 热榜和 NVIDIA 企业部署内容里。前者说明社区开始试用，后者说明厂商在优化可运行路径。对开发者来说，真正重要的不是参数规模，而是它能否在 vLLM / TensorRT-LLM / NIM 等 serving 路径上以可接受延迟跑起来，并接入现有多模态 routing、safety 和 observability。

ENTRY 006/019

[ DOCUMENTAI · OCR · VLM · PADDLEOCR · 多模态 ]

PaddleOCR-VL-1.6：文档智能模型继续向 layout / table / formula / chart 解析统一

(PaddleOCR-VL-1.6)

→ Hugging Face

PaddlePaddle 发布 PaddleOCR-VL-1.6，模型标签覆盖 OCR、document-parse、layout、table、formula、chart、seal、spotting 与 multilingual document understanding，并基于 ERNIE4.5 / PaddleOCR-VL 路线继续强化文档解析。模型创建于 5 月 27 日，已进入 Hugging Face trending。

Doc AI 是企业多模态落地里最容易被低估的基础能力。RAG 系统如果只能抽纯文本，遇到表格、图表、公式、盖章、版面层级、多语言 PDF 时就会丢失证据结构；而 agent 如果要审合同、读发票、分析报表或处理医学文档，必须知道答案来自哪个区域、哪个表格单元或哪个视觉元素。

PaddleOCR-VL-1.6 的价值在于把 OCR 和 layout-aware parsing 继续融合到一个开源模型路径中，而不是让工程团队拼接 OCR、table extractor、chart parser 和 VLM captioner。它和 CiteVQA 这类 evidence attribution benchmark 形成闭环：模型不仅要读懂文档，还要能让下游系统追溯视觉证据。

ENTRY 007/019

[ AGENT · SKILL · 优化 · MICROSOFTRESEARCH · 论文 ]

SkillOpt：把自然语言 agent skill 当作可训练外部参数

(SkillOpt: Executive Strategy for Self-Evolving Agent Skills)

→ arXiv:2605.23904 · → Project

Microsoft Research 提出 SkillOpt，把 skill document 当作 frozen agent 的外部状态进行文本空间优化。优化器模型把 scored rollouts 转成受限 add/delete/replace edits，只有 held-out validation score 严格提升才接受；在 6 个 benchmark、7 个 target model、3 个 harness（direct chat、Codex、Claude Code）上，52 个评估单元全部 best 或 tied。

agent skill 过去常被当作手写提示词或一次性生成的说明文档。SkillOpt 的核心转变是把 skill 看成“可训练但人类可读”的参数：模型权重不动，运行时额外模型调用不增加，优化发生在部署前的 skill 文本上。这非常适合企业场景，因为 skill 可以代码审查、版本管理、回滚和迁移，比微调权重更容易治理。

结果也很强。论文报告在 GPT-5.5 上，SkillOpt 相比 no-skill 平均提升 direct chat +23.5、Codex loop +24.8、Claude Code +19.1，并且优化出的 skill 能跨模型规模、跨 Codex / Claude Code execution environment 和相近数学 benchmark 迁移。它把“从轨迹中提炼流程知识”变成可验证优化问题，而不是依赖 prompt engineer 直觉。

ENTRY 008/019

[ ROBOTICS · VLA · EMBODIEDAI · 开源模型 · 论文 ]

MolmoAct2：开放 VLA 模型把 embodied reasoning、action tokenizer 与低延迟推理打包发布

(MolmoAct2: Action Reasoning Models for Real-world Deployment)

→ arXiv:2605.02881 · → AllenAI

Ai2 / UW 等团队发布 MolmoAct2，面向真实机器人部署的 fully open action reasoning model。论文包括 MolmoER embodied-reasoning VLM、3.3M spatial/embodied corpus、720 小时 bimanual teleoperation 数据集、OpenFAST action tokenizer、flow-matching continuous-action expert，以及 MolmoThink adaptive-depth reasoning。

VLA 模型的实际瓶颈一直不是“能否在 demo 里抓起物体”，而是开放性、硬件成本、动作表示、延迟和真实场景泛化。MolmoAct2 的贡献是把这些问题作为系统工程一起处理：用 MolmoER 强化空间/embodied reasoning，用 OpenFAST 统一动作 tokenization，用 flow-matching expert 接连续动作，再用 per-layer KV-cache conditioning 接到离散 VLM。

MolmoThink 的 adaptive-depth reasoning 也很实用。机器人每个 timestep 都重新深度推理会带来不可接受延迟；只对变化区域重预测 depth tokens，可以保留几何 grounding，同时降低推理成本。对正在做机器人、实验室自动化或 embodied agent 的团队，这类开源 VLA release 比封闭 demo 更有价值，因为模型权重、训练代码和数据路径都能被复现和改造。

ENTRY 009/019

[ DOCUMENTAI · VQA · GROUNDING · 评测 · 论文 ]

CiteVQA：Doc-VQA 开始评估“答案正确且证据区域正确”

(CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence)

→ arXiv:2605.12882 · → GitHub

OpenDataLab 提出 CiteVQA，要求模型在回答文档问题时同时给出 element-level bounding-box citations，并用 Strict Attributed Accuracy 同时评估答案与证据区域。数据集包含 711 份 PDF、1,897 个问题、7 个领域、2 种语言，平均每份文档 40.6 页；20 个 MLLM 审计显示 attribution hallucination 普遍存在，最强 Gemini-3.1-Pro-Preview 的 SAA 也只有 76.0，最强开源 MLLM 仅 22.5。

文档智能最危险的失败不是答错，而是答对了但引用错了。法律、金融、医疗、审计等场景需要知道结论来自哪段条款、哪格表格、哪张图，而当前 Doc-VQA benchmark 通常只看 final answer，掩盖了“模型撞对答案但证据虚构”的问题。CiteVQA 把这一点做成可量化指标。

这会直接影响企业 RAG 和 document agent 的评测方式。未来文档系统不能只报告 exact match 或 LLM judge answer quality，还要记录 citation region、bbox overlap、证据链完整性。PaddleOCR-VL、LocateAnything、CiteVQA 这几条线放在一起看，document AI 正从“抽文本给 LLM”转向“可定位、可验证、可审计的视觉证据系统”。

ENTRY 010/019

[ MULTIMODALAGENT · SEARCH · RL · GRPO · 论文 ]

OpenSearch-VL：开源多模态 deep search agent 的数据、工具和 RL recipe

(OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents)

→ arXiv:2605.05185

Tencent Hunyuan / 上海科技大学等团队提出 OpenSearch-VL，面向多模态 deep search agent 的开放训练 recipe。它构建 SearchVL-SFT-36k 与 SearchVL-RL-8k 数据，工具环境统一 text search、image search、OCR、crop、sharpen、super-resolution、perspective correction，并提出 multi-turn fatal-aware GRPO，七个 benchmark 平均提升超过 10 分。

多模态 deep search 的难点是模型既要看图，又要搜索外部知识，还要在多轮工具失败后继续保持可训练信号。OpenSearch-VL 的数据构造用了 Wikipedia path sampling、fuzzy entity rewriting 和 source-anchor visual grounding，目的就是避免 agent 一步检索到答案或靠文本捷径完成任务。

multi-turn fatal-aware GRPO 是更值得关注的方法点。工具调用一旦失败，后续 trajectory 可能全被污染；如果直接把整条 rollout 作为负样本，会伤害失败前有用的 reasoning。论文用 post-failure token mask 和 one-sided advantage clamping 保留前半段信号，这对 browser agent、document agent、robot agent 这类工具链不稳定系统都有可迁移价值。

ENTRY 011/019

[ AGENTMEMORY · PRIVACY · EDGEAI · PERSONALAI · 论文 ]

MemPrivacy：edge-cloud agent 记忆的可逆隐私占位机制

(MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents)

→ arXiv:2605.09530

MemPrivacy 针对 edge-cloud personalized memory，先在端侧识别隐私敏感 span，再用 type-aware placeholders 替换给云端 memory processing，必要时在本地恢复原值。论文构建 MemPrivacy-Bench，覆盖 200 个用户与 52k+ privacy instances，四级 privacy taxonomy，并报告在多种 memory systems 上 utility loss 控制在 1.6% 以内。

agent 记忆的核心矛盾是：云端模型更强，但用户长期记忆里最有价值的信息往往也最敏感。传统 masking 把敏感值替换成 ***，隐私是保住了，但模型无法形成“同一类实体、同一类偏好、同一类约束”的语义记忆。MemPrivacy 的 type-aware placeholder 把真实值留在本地，把语义结构留给云端，是更实用的折中。

这类机制会成为 personal AI 和 enterprise assistant 的底层组件。用户希望模型记住“我的主治医生”“我的客户合同”“我的内部系统账号”，但不希望这些具体值进入云端长期状态。MemPrivacy 的端侧识别、云侧记忆、本地恢复模式，和 Unabyss、OpenHuman、ContextPool 这类 persistent context 工具属于同一个趋势：长期上下文必须变成可控数据系统，而不是聊天记录自然堆积。

ENTRY 012/019

[ DIFFUSION · SAMPLING · IMAGEGENERATION · 推理优化 · 论文 ]

Colored Noise Diffusion Sampling：无需重训的 frequency-aware diffusion sampler

(Colored Noise Diffusion Sampling)

→ arXiv:2605.30332 · → Project · → GitHub

CNS 把 diffusion sampling 中的白噪声注入改为 timestep- 与 frequency-dependent 的 colored noise schedule，根据频段完成度 gamma(f,t) 把有限随机能量重新分配给尚未解析的频带。它是 plug-and-play inference-time sampler substitution，无需重训，在 ImageNet-256 上把 SiT-XL/2 unguided FID 从 8.26 降到 6.27，JiT-B/16 从 32.39 降到 26.69，JiT-H/16 从 11.88 降到 8.31，并报告可用于 SiT、JiT、FLUX 等架构。

diffusion model 的 spectral bias 很常见：低频结构先成形，高频细节后出现。标准 SDE solver 在每一步平均注入 white noise，相当于把能量浪费在已经完成的频段上。CNS 的思路是把 sampling 当作 frequency-decoupled energy transfer，在保证全局 variance-preserving 的前提下，把噪声预算动态转给落后的频段。

这类 inference-time 方法对开源图像生态特别有价值。训练一个新模型昂贵且不可复制，但换 sampler 可以直接落到 ComfyUI、Diffusers 或自研生成服务里。如果 CNS 在更多 prompt、分辨率和 video/image-editing 任务上稳定，它会成为类似 scheduler / sampler 选择的基础优化项，而不是单独模型发布。

ENTRY 013/019

[ 数学 · BENCHMARK · REASONING · LLM评测 · 论文 ]

Soohak：439 个数学家原创研究级问题评测 frontier reasoning

(Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs)

→ arXiv:2605.09063

Soohak 由 64 位数学家从零新写 439 个研究级数学问题，分为 Challenge 与 Refusal 两类。Gemini-3-Pro、GPT-5、Claude-Opus-4.5 在 Challenge 子集分别达到 30.4%、26.4%、10.4%，Qwen3-235B、GPT-OSS-120B、Kimi-2.5 等开源模型低于 15%；Refusal 子集没有模型超过 50%。

随着 frontier model 已经在 IMO 级任务上接近金牌水平，研究级数学评测需要从“解难题”升级到“知道什么时候问题不成立、何时应拒答”。Soohak 的 refusal subset 很重要，因为数学研究里识别 ill-posed problem 和不充分条件，本身就是能力的一部分。一个模型如果对错误题目也给出自信证明，在实际科研中比答错更危险。

数据集暂缓公开以防污染，只开放评估请求，这也反映了新一代 benchmark 的现实困境：公开数据越快，越容易进入训练集；不公开又影响复现。对 AI4Math 方向，Soohak 提供的信号是当前 frontier reasoning 仍有巨大 headroom，尤其在研究级问题建模和拒答校准上。

ENTRY 014/019

[ LANGUAGEMODEL · DIFFUSION · 架构 · 非自回归 · 论文 ]

Cola DLM：用连续 latent diffusion 重新定义语言生成路径

(Continuous Latent Diffusion Language Model)

→ arXiv:2605.06548

Cola DLM 提出 hierarchical latent diffusion language model：先用 Text VAE 学稳定 text-to-latent mapping，再用 block-causal DiT 在连续 latent space 建模 global semantic prior，最后 conditional decoding 回文本。论文在约 2B 参数 matched autoregressive / LLaDA baseline、8 个 benchmark 与约 2000 EFLOPs scaling curve 上验证其生成质量和扩展行为。

自回归 next-token prediction 是当前 LLM 的默认范式，但它并不是文本生成的唯一结构。Cola DLM 把全局语义组织和局部文本实现拆开：diffusion prior 负责连续 latent 中的语义运输，decoder 负责把 latent 还原成文本。这种层级分解更接近图像/视频生成里的 latent diffusion，也为跨文本和连续模态统一建模提供路径。

短期内它不会替代主流 autoregressive LLM，因为工具调用、流式输出、长上下文和 KV cache 生态都围绕 token-by-token generation 建成。但从研究角度，Cola DLM 说明非自回归/扩散式语言建模正在从 toy setup 走向可比较 scaling curve。未来如果能解决可控解码、事实性和交互延迟，它可能成为生成长文本、计划草稿或多模态 latent planning 的新候选。

ENTRY 015/019

[ INFERENCE · SERVING · NVIDIA · DYNAMO · 仿真 ]

NVIDIA DynoSim：用 Dynamo twin 在本地快速扫 LLM serving Pareto frontier

(DynoSim: Simulating the Pareto Frontier)

→ NVIDIA Blog

NVIDIA 发布 DynoSim，一个面向 NVIDIA Dynamo serving stack 的 workload-driven discrete-event simulation。它组合 engine forward-pass timing、Mocker scheduler cores、Router、Planner、KV cache effects 与 workload traces，在 Apple M4 MacBook Air 单线程 Rust offline replay 中，用 2.41 秒模拟 23,608-request Mooncake trace、60.1 分钟 serving window，约 1,500x faster than real time。

LLM serving 调优很难靠直觉，因为 backend、tensor parallel、prefill/decode split、worker count、scheduler、routing、KV cache、autoscaling 和 topology 会互相影响。真实 GPU 实验成本高，而且单点优化可能只是把瓶颈挪到别处。DynoSim 的价值是先在 simulation 里扫几千个配置，再把少数候选拿到真硬件验证。

这和传统系统里的 capacity planning / trace replay 很像，但 LLM serving 多了 KV cache、prefill/decode 分离和动态 batching 等特有变量。对大规模推理团队，类似 simulate-then-verify 流程会越来越必要，因为模型和请求分布变化太快，靠人工经验维护 routing 和 cache policy 很难跟上。

ENTRY 016/019

[ AGENT · WEBAGENT · FIRECRAWL · MONITORING · API ]

Firecrawl `/monitor`：把网页变化检测变成 agent 可订阅事件

(Introducing /monitor: Notify AI agents when the web changes)

→ Firecrawl

Firecrawl 发布 /monitor，把定时抓取、snapshot 存储、diff、webhook retry 与 noise filtering 封装成一个 endpoint，只在页面或站点出现 meaningful change 时通知 agent。典型用途包括竞品价格、商品目录、招聘页、市场信息、文档更新和站点内容监控。

Web agent 的一个长期问题是“何时该行动”。如果 agent 每次都主动搜索，成本高、延迟高、还容易漏掉变化；如果靠 cron 抓页面，开发者要自己处理 snapshot、diff、去噪和重试。/monitor 把网页变化变成 webhook-style event，适合让 agent 从 polling 模式转向 event-driven 模式。

这对长期运行 agent 尤其有用。比如采购 agent 不必每天重读所有供应商页面，而是在价格或 SKU 变化时被唤醒；文档 agent 不必全量扫描 docs，而是在 API changelog 改动时更新内部知识库。它不是 frontier model，但属于 agent infrastructure 的关键拼图：让外部世界变化以结构化事件进入 agent loop。

ENTRY 017/019

[ GITHUB · AGENTFRAMEWORK · MCP · OBSERVABILITY · 开源工具 ]

LightAgent v0.7.0：轻量 agent framework 加入 trace observability 与结构化运行事件

(LightAgent)

→ GitHub

LightAgent 是一个轻量开源 agent framework，支持 memory、MCP、skills、multi-agent collaboration、tree-of-thought reasoning，并输出 OpenAI-compatible streaming APIs。5 月 29 日 v0.7.0 development 加入 opt-in trace observability、structured run/model/tool/error events、agent.export_trace() 与 prompt-safe model request summaries；5 月 28 日 v0.6.5 加入 structured run results、structured streaming events、catchable errors 和 tool argument validation。

LightAgent 不是最大或最重的 agent framework，但它反映了开源 agent runtime 的现实需求：轻量、可嵌入、OpenAI-compatible、MCP 接入、技能组合和可观测性。v0.7.0 的 trace observability 很关键，因为只要 agent 能调用工具，开发者就需要知道每一步模型请求、工具参数、错误、重试和最终结果如何串起来。

与 LangGraph 这类 graph-first 框架不同，LightAgent 更像一个小型可组合 runtime。它适合个人项目、插件系统或轻量服务，而不是一开始就引入复杂 orchestration 平台。当前开源 agent 工具的分化正在变清楚：有的做 workflow graph，有的做安全 sandbox，有的做 tracing，有的做 skill runtime；LightAgent 选择的是低门槛 runtime + observability。

ENTRY 018/019

[ GITHUB · AGENTRUNTIME · DISTRIBUTEDAGENTS · GOOGLE · 开源工具 ]

Google AX：开源 distributed agent runtime，路线图指向 subagent suspend/resume 与 approvals

(google/ax)

→ GitHub

Google 开源 AX，一个 distributed agent runtime，v0.1.0 于 5 月 20 日发布。README 路线图包括 Antigravity as built-in harness、BYOH、subagent suspension/resumption、subagent tool call approvals、resumption protocol 改进，并提到 GKE 团队在 isolation、resumption 与 job scheduling 上的贡献。

AX 值得关注是因为它把 agent runtime 的问题放在分布式系统语境里，而不是只做 prompt orchestration。长任务 agent 需要暂停、恢复、调度、隔离、审批和跨 worker 状态迁移，这些问题更接近 job scheduler / workflow engine / sandbox platform，而不是聊天机器人。

路线图里的 subagent suspension/resumption 和 tool call approvals 是核心。多 agent 并行执行时，最大风险不是模型不会写代码，而是子任务执行状态不可恢复、工具调用权限不可控、失败后无法接回上下文。Google 把 GKE isolation 和 job scheduling 经验引入 agent runtime，说明大厂正在把 agent 当作长期运行 workload 管理。

ENTRY 019/019

[ AGENT · HARNESS · SURVEY · DEVOPS · 论文 ]

Code as Agent Harness：把 code 视为 agent 推理、行动、记忆和验证的统一 substrate

(Code as Agent Harness)

→ arXiv:2605.18747 · → Project

这篇 survey 把 code 从“模型输出目标”重新定义为 agent harness：连接 reasoning、action、environment modeling、execution-based verification、planning、memory、tool use、feedback control 与 multi-agent coordination 的统一基础设施。论文覆盖 coding assistant、GUI/OS automation、embodied agents、scientific discovery、personalization、DevOps 和 enterprise workflow 等应用，并提出 evaluation、verification、shared state 与 human oversight 等开放问题。

这篇不是新算法，但它给当前 agent 工程提供了一个有用框架：真正让 agent 可用的往往不是单次回答，而是围绕代码形成的可执行状态、工具接口、验证脚本、测试环境、日志、配置和协作协议。代码既是 agent 写的东西，也是 agent 运行、观察、记忆和改进自己的环境。

把它和 Codex、Claude Code、Grok Build、AX、SkillOpt 放在一起看，趋势很清楚：agent 的核心资产正在从 prompt 迁移到 harness。谁能提供更好的可执行环境、状态管理、权限边界、评测回路和 skill/tool 编排，谁就能把同一个 frontier model 用得更稳定。

其他值得关注

NVIDIA Dynamo Snapshot: Fast Startup for Inference Workloads on Kubernetes — 生产推理扩缩容的 cold-start 问题，适合和 DynoSim / Dynamo stack 一起看。 — NVIDIA Dynamo Snapshot: Fast Startup for Inference Workloads on Kubernetes
NVIDIA Blackwell Sets STAC-AI Record for LLM Inference in Finance — 金融 LLM inference benchmark，含 TensorRT-LLM / Model Optimizer / NVFP4 配置路径。 — NVIDIA Blackwell Sets STAC-AI Record for LLM Inference in Finance
NVIDIA-Verified Agent Skills Provide Capability Governance for AI Agents — skill card、扫描、签名和 provenance，把 agent skill 当作可验证供应链资产。 — NVIDIA-Verified Agent Skills Provide Capability Governance for AI Agents
Unabyss: MCP-native self-updating context layer for your AI — Product Hunt 高热 persistent context / MCP 工具，适合与 MemPrivacy、OpenHuman、ContextPool 一起观察。 — Unabyss: MCP-native self-updating context layer for your AI
LongCat-Video-Avatar-1.5 — Meituan LongCat audio / image / text-to-video avatar 模型，HF 模型与 Space 同时上榜。 — LongCat-Video-Avatar-1.5
OpenComputer: Verifiable Software Worlds for Computer-Use Agents — 面向 computer-use agent 的可验证软件世界，和 Codex Computer Use / AX runtime 方向相关。 — OpenComputer: Verifiable Software Worlds for Computer-Use Agents
DeepSeek V4 Preview Release — 1M context、V4-Pro / V4-Flash、OpenAI 与 Anthropic API 格式支持；旧 deepseek-chat / deepseek-reasoner 将于 2026-07-24 停用。 — DeepSeek V4 Preview Release
Mistral Search Toolkit — ingestion / retrieval / evaluation 统一框架，5 月 30 日已在 Mistral AI Now 主题中提及，适合作为后续平台栈观察项。 — Mistral Search Toolkit
OpenRouter raises $113M Series B — HN 高热但属于融资/生态信号，未作为主条目。 — OpenRouter raises $113M Series B
Anthropic hits $965B valuation — 高频行业动态，因缺少新增技术细节未作为主条目。 — Anthropic hits $965B valuation

← 2026.05.30 2026.06.03 →