一日三饭 | HARNESS

← /harness

════ 2026.06.03 ════

今日要点

> 平台侧今天的重点是 agent control plane 进入企业系统：OpenAI 把 Codex 扩展到 role-specific plugins、Sites 和 annotations，并让 frontier models / Codex 在 AWS 上一般可用；Microsoft 则发布 Work IQ APIs，让企业 agent 直接使用 Microsoft 365 的语义上下文、MCP 工具面和 Copilot Credits 成本治理。
> MiniMax M3 把国产开放模型竞争推到 coding + 1M context + multimodal 组合：官方称 M3 使用 MSA（MiniMax Sparse Attention），支持 frontier coding、agentic tasks、1M context 和原生多模态；同周 MiniMax-M2 论文披露 229.9B total / 9.8B active MoE、agent-driven data pipelines 与 Forge agent-native RL。
> 本地与端侧 agent stack 明显升温：NVIDIA 与 Microsoft 在 Windows 上引入 MXC / OpenShell agent sandboxing，RTX Spark 提供 1 petaflop 与最高 128GB memory；Headroom 则用可逆上下文压缩、MCP server 和 cross-agent memory 把 agent token 成本压低 60-95%。
> HF Papers 今日高票集中在 post-training、机器人和 agent 评测：TrOPD 修补 on-policy distillation 的 distribution mismatch，Humanoid-GPT 用 2B-frame motion corpus 做 zero-shot motion tracking，AutoMedBench 将 medical AutoResearch 拆成 Plan / Setup / Validate / Inference / Submit 五阶段评测。
> 安全与治理开始从“模型能力”转向“权限、验证和补丁闭环”：Anthropic 扩展 Project Glasswing 到约 150 个组织并发布 Claude Security；Statewright、AI-DLC workflows 和 Work IQ 都在不同层面强调 agent 的状态机、规则、身份、审计与可控执行。

详细内容

ENTRY 001/016

[ OPENAI · CODEX · AGENT · KNOWLEDGEWORK · PLUGIN ]

Codex 扩展到 role-specific plugins、Sites 与 annotations

(Codex for every role, tool, and workflow)

→ OpenAI

OpenAI 在 6 月 2 日发布 Codex 新工作流，称 Codex 周活用户已超过 500 万，非开发者约占 20% 且增速超过开发者 3 倍。新能力包括六个面向不同角色的 plugins、Business / Enterprise 预览版 Sites，以及可直接标注文档、表格、幻灯片和网站局部内容的 annotations。

这条的意义不是 Codex 又多了一个 UI 功能，而是 coding agent 的执行面开始从 repo / IDE 扩展到知识工作产物。Plugins 让 Codex 连接团队已有工具、权限和上下文，Sites 则把一次性生成内容变成可共享、可更新的轻量应用或工作空间，适合客户评审页、launch hub、scenario planner、运营 dashboard 这类本来需要工程或低代码平台才能完成的内部工具。

对企业技术团队，这类产品化路线会改变 agent 集成边界。Codex 不再只是“帮工程师写代码”，而是成为可以创建、修改和维护结构化工作资产的 agent runtime。真正要评估的不只是模型质量，还包括插件权限、站点托管边界、annotations 追踪、管理员控制和生成资产在团队流程中的审计方式。

ENTRY 002/016

[ OPENAI · AWS · BEDROCK · CODEX · ENTERPRISEAI ]

OpenAI frontier models 与 Codex 在 AWS 上一般可用

(OpenAI frontier models and Codex are now available on AWS)

→ OpenAI

OpenAI 宣布 frontier models 与 Codex 在 AWS 上一般可用，其中 OpenAI models on Amazon Bedrock 面向 AWS 原生安全与治理控制，Codex 也可进入企业已有采购、计费和合规路径。OpenAI 同时预告 Daybreak / Codex Security 等 cyber capabilities 未来会沿 AWS 路径提供。

这类云平台可用性发布通常容易被低估，但它会直接影响企业采用速度。很多组织不是不能调用 OpenAI API，而是不能绕开现有的 IAM、审计、采购、数据边界和云治理流程。进入 Bedrock 后，OpenAI 模型和 Codex 可以被放进 AWS 客户熟悉的 deployment、billing 和 security posture 里，降低从试点到生产的阻力。

Daybreak 的预告也值得跟踪。OpenAI 把 secure code review、threat modeling、patch validation、dependency risk analysis、detection 和 remediation guidance 描述为未来 cyber capability，这与 Anthropic Glasswing / Claude Security 的方向形成直接竞争：frontier model 不只写代码，也开始进入软件防御和供应链安全闭环。

ENTRY 003/016

[ MINIMAX · LLM · CODINGAGENT · LONGCONTEXT · MULTIMODAL ]

MiniMax M3：frontier coding、1M context 与原生多模态合并到同一模型

(MiniMax M3)

→ MiniMax · → MiniMax 首页 · → Dataforcee

MiniMax 在 6 月 1 日发布 M3，官方标题强调 frontier coding、1M context、native multimodality 和 MSA（MiniMax Sparse Attention）。第三方报道称 API 已上线，MiniMax 承诺 10 天内发布开放权重和技术报告；Reddit / LocalLLaMA 社区则提醒在权重和参数细节正式可见前，应谨慎看待“open-weight”表述。

M3 值得进入 Tier 0，因为它同时命中当前开放模型竞争的三个关键维度：agentic coding、超长上下文和原生多模态。1M context 本身不是新概念，但把它和 coding / computer-use / multimodal 能力放在同一模型产品里，会让模型更适合长仓库分析、长文档决策、视觉界面操作和多步骤 agent 任务。

这里需要保留一个工程判断：官方宣称“将成为同类中唯一开源模型”，但简报时间点上权重和完整技术报告尚未稳定可核验。因此更稳妥的结论是，M3 已经是重要候选模型，但真正是否改变部署选型，要等 model card、license、权重、context 代价、serving 路径和第三方 benchmark 出来后再判断。

ENTRY 004/016

[ MICROSOFT · COPILOT · AGENT · MCP · ENTERPRISEAI ]

Microsoft Work IQ APIs：让企业 agent 直接访问 Microsoft 365 语义工作上下文

(Announcing the new Work IQ APIs)

→ Microsoft 365 Blog

Microsoft 宣布 Work IQ APIs 将于 2026 年 6 月 16 日 GA。Work IQ 会从 email、calendar、meetings、chats、files、people、collaboration patterns 和 line-of-business systems 中构建实时组织语义层，并为 agent 提供 Context、Tools、Chat、MCP、A2A、Organizational Intelligence 等接口。

Work IQ APIs 是典型的平台级 agent 基础设施。传统 Microsoft Graph / Office API 是给人写应用用的，agent 需要的是低延迟上下文、压缩后的语义结果、少量通用工具、审计边界和 tenant trust boundary。Microsoft 把工具面折叠成 10 个 generic tools，并通过 MCP progressive disclosure 暴露能力，目的就是减少 agent 需要学习和调用的 API 表面。

两个数字尤其值得看：Microsoft 称 Work IQ APIs 相比传统 API 运行更快，并在 coding harness 内部测试中减少 80% tokens。若这个方向成立，企业 agent 的成本优化会从 prompt compression 上移到平台运行时：平台先理解组织上下文，再把 agent 需要的最小语义包交出去，而不是让外层 agent 自己读原始邮件、会议和文件。

ENTRY 005/016

[ NVIDIA · MICROSOFT · LOCALAGENT · WINDOWS · SANDBOX ]

NVIDIA 与 Microsoft 推出 Windows 本地 agent sandbox / runtime stack

(Build Personal AI Agents on Windows PCs with New Tools from Microsoft and NVIDIA)

→ NVIDIA Technical Blog · → NVIDIA DGX Spark

NVIDIA 与 Microsoft 在 COMPUTEX / Build 2026 期间发布面向 Windows 本地 agent 的工具链：Microsoft eXecution Containers（MXC）作为身份与策略执行的 containment 层，NVIDIA OpenShell 集成 MXC 并提供 policy、inference routing 和 PII obfuscation；RTX Spark 设备提供 1 petaflop AI 性能和最高 128GB memory。

本地 agent 最大问题不是模型能不能跑，而是 agent 能不能安全地碰本机文件、应用和系统资源。MXC / OpenShell 的价值在于把“agent 执行代码、访问文件、操作 app”从普通进程权限里拆出来，放进带身份、策略和隔离的执行容器。对开发者，这比单纯在 Windows 上跑一个 LLM 更重要，因为 prompt injection 和越权访问通常发生在工具执行层。

RTX Spark / DGX Spark 方向也说明本地 agent 不再只是消费者玩具。长上下文、多 subagent、持续任务和隐私敏感工作流都会推高本地算力需求。NVIDIA 把 NemoClaw、Hermes Agent、H Company Holo 3.1、llama.cpp、ComfyUI 多 GPU 支持放进同一条叙事，本质是在做“个人 AI workstation”的运行时生态。

ENTRY 006/016

[ ANTHROPIC · CYBERSECURITY · CLAUDE · AGENTSECURITY · PROGRESSUPDATE ]

🔄 进展更新：Anthropic 扩展 Project Glasswing 并推出 Claude Security

(Expanding Project Glasswing)

→ Anthropic

Anthropic 将 Project Glasswing 从最初约 50 个合作伙伴扩展到约 150 个新组织，并要求加入者满足安全要求。官方称 Claude Security 已发布，可使用 Claude Opus 4.8 等公开 frontier models 扫描代码库并建议补丁，同时向可信安全团队按需释放 Glasswing 合作伙伴使用的漏洞发现工具。

5 月底的已知信息是 Glasswing 合作伙伴用 Mythos Preview 发现了 10,000+ high / critical vulnerabilities；今天的新进展是 Anthropic 开始把这套能力从封闭试点推向更大的防御生态。真正的瓶颈也从“模型能不能发现漏洞”转成“如何验证、披露、修复并部署补丁”。

这条需要作为进展更新收录，因为它标志着 AI cyber-defense 从模型展示进入流程工程。Claude Security 面向普通代码库扫描和 patch suggestion，Glasswing 工具面向可信安全团队，二者一起说明 frontier lab 正在把 cyber model、产品、合作伙伴和 disclosure / patching 基础设施组合成长期平台，而不是一次性 benchmark。

ENTRY 007/016

[ GITHUB · AGENT · CONTEXTENGINEERING · MCP · TOKENOPTIMIZATION ]

Headroom：面向 AI agents 的本地可逆上下文压缩层

(Headroom)

→ GitHub

Headroom 是一个本地 context compression layer，可压缩 tool outputs、logs、RAG chunks、files 和 conversation history，官方宣称 60-95% token reduction。它提供 Python / TypeScript library、drop-in proxy、MCP server、Claude / Codex / Cursor / Aider / Copilot wrapper、cross-agent memory 和可逆 CCR 检索机制。

随着 agent 使用 tool outputs、长日志、搜索结果和多轮记忆，真正昂贵的不是单轮 prompt，而是大量低价值上下文被反复塞进模型。Headroom 的设计很实用：ContentRouter 识别 JSON、code、prose 等内容类型，SmartCrusher / CodeCompressor / Kompress-base 分别处理结构化、AST 和文本，CCR 保存原文并让模型需要时再 retrieve。

它还把 agent 工程里几个分散问题放到同一层：KV cache prefix 稳定、跨 agent memory、MCP 工具、失败会话挖掘并写回 CLAUDE.md / AGENTS.md / GEMINI.md。如果这些 benchmark 能被复现，Headroom 代表的不是“又一个压缩器”，而是 agent runtime 的 context middleware。

ENTRY 008/016

[ VLLM · RLHF · POSTTRAINING · SERVING · INFERENCE ]

vLLM Native RL APIs：把 weight syncing 与 async RL 接入 serving runtime

(Native RL APIs in vLLM)

→ vLLM Blog

vLLM 发布 Native RL APIs，面向大规模 post-training 工作负载中反复出现的两个问题：训练与推理之间的 weight syncing 依赖各框架临时实现，以及 async RL 在 P/D 与 DPEP 部署下容易脆弱。新 API 支持 trainer rank 0 与 inference workers 加入共享 NCCL process group、custom weight transfer、pause / resume、keep mode 和 DPEP deadlock 修复。

后训练越来越像分布式系统问题，而不只是算法问题。RL trainer 需要持续生成 rollouts、更新权重、同步到 inference workers，再继续采样；如果 weight syncing、pause / resume 和 process group 管理都靠各训练框架自己拼，规模一上去就会变成不可维护的 glue code。

vLLM 把这些能力放入 serving runtime，说明推理引擎正在向 post-training runtime 延伸。对做 RLHF、agent RL、tool-use RL 或大规模 rejection / distillation pipeline 的团队，这类 API 的价值在于减少框架间重复实现，并让训练端与推理端在异步场景下有更稳定的同步协议。

ENTRY 009/016

[ 论文 · POSTTRAINING · DISTILLATION · LLM · RL ]

Trust Region On-Policy Distillation：用 trust region 稳定 OPD token-level supervision

(Trust Region On-Policy Distillation)

→ HF Papers · → arXiv

Samsung Research 提出 TrOPD，用 trust regions、outlier estimation 和 off-policy guidance 改善 on-policy distillation 在 teacher / student distribution mismatch 下的不稳定问题。论文称 TrOPD 在数学推理、代码生成和通用 benchmark 上持续超过 OPD、EOPD、REOPOLD 等 baseline。

On-policy distillation 的问题在于 teacher 要监督 student 自己生成的 token，但当 student distribution 偏离 teacher 很远时，teacher 给出的 token-level signal 可能不可靠，甚至让 reverse-KL estimator 进入优化失败区域。TrOPD 的思路是只在 teacher 监督可信的 trust region 里做 OPD，对 outlier 区域使用 clipping、masking 或 forward-KL，并让 student 从 teacher prefixes 继续生成以获得更可靠的探索轨迹。

这和最近小模型、端侧模型、agent 模型的趋势直接相关。很多团队希望把大型 teacher 的 tool-use、coding、reasoning 能力蒸馏到更小学生模型，但蒸馏不是简单跑 SFT；如果 student 自己的 rollout 太差，token 级监督会把噪声当信号。TrOPD 提供了一个更细的 credit assignment 视角。

ENTRY 010/016

[ 机器人 · HUMANOID · MOTIONCONTROL · TRANSFORMER · 论文 ]

Humanoid-GPT：用 2B-frame motion corpus 训练 GPT-style whole-body controller

(Humanoid-GPT)

→ HF Papers · → arXiv

Humanoid-GPT 是一个 GPT-style Transformer whole-body controller，用 causal attention 在 billion-scale motion corpus 上预训练。论文称其 2B-frame retargeted corpus 整合主要 mocap datasets 与大规模内部录制数据，使单一生成式 Transformer 能在 unseen motions 和 control tasks 上做 zero-shot generalization。

机器人控制正在借鉴语言模型的 scaling recipe：不再只为单个任务训练浅层 tracker，而是把多数据源、多动作、多场景的运动轨迹统一成可自回归建模的序列。Humanoid-GPT 把 whole-body motion tracking 放到 GPT-style causal Transformer 里，目标是通过数据与模型规模同时提升动态动作跟踪和未见任务泛化。

对 embodied AI 研究者，这条的价值在于它把“模型结构”和“数据规模”同时推上去。传统控制器常受限于少量 mocap 和 agility-generalization trade-off，Humanoid-GPT 如果能稳定 zero-shot 到新动作和控制任务，就说明机器人基础模型的路线不只在 VLA，也可能在 motion-token / trajectory-token 级别形成独立预训练范式。

ENTRY 011/016

[ AGENT · MEDICALAI · BENCHMARK · EVALUATION · 论文 ]

AutoMedBench：五阶段评测 medical AutoResearch agent 的可靠性

(AutoMedBench)

→ HF Papers · → arXiv

AutoMedBench 是面向 autonomous medical-AI research 的 workflow-aware benchmark，将 agent 执行拆成 Plan、Setup、Validate、Inference、Submit 五阶段，覆盖 segmentation、image enhancement、VQA、report generation、lesion detection 五条 track。论文称每次运行平均 33 agent turns，错误分析显示 Validate 是平均最弱阶段，verification 与 submission failures 分别占 37.7% 和 38.1%。

医疗 AI agent 的风险不在于它不会生成方案，而在于它可能把错误 pipeline 顺利跑完并提交一个看似合理的结果。AutoMedBench 把评测从最终分数拆到 workflow stage，能看到 agent 是卡在规划、环境配置、验证、推理还是提交，这比只看任务最终指标更接近真实 research workflow。

最有价值的发现是 Validate 阶段最弱，而 task-understanding errors 只有 0.9%。这说明当前 agent 很多时候听懂了任务，也能把环境搭起来，但缺少足够可靠的实验验证和提交检查。对医疗、科学计算和企业数据分析 agent 来说，未来改进重点应该是 validation harness、metric checking、artifact verification 和失败恢复，而不是继续堆 prompt。

ENTRY 012/016

[ WORLDMODEL · MULTIMODAL · REASONING · DISTILLATION · 论文 ]

World Models Meet Language Models：用 PF-OPSD 训练可控 concrete reasoning

(World Models Meet Language Models)

→ HF Papers · → arXiv

腾讯团队提出 controlled concrete reasoning，将 visual future simulation 与 abstract reasoning 结合。论文构建 VRQABench 与 OpenWorldQA 两个人工验证 benchmark，并提出 Privileged-Future On-Policy Self-Distillation（PF-OPSD），训练时使用真实未来视频和答案作为 teacher-side privileged context，测试时 student 不看真实未来；结果在两个 benchmark 上分别提升 10.6% 和 10.9%。

World model 能生成具体未来画面，MLLM 能做抽象推理，但两者直接拼接会遇到一个问题：生成 rollout 可能视觉上合理但任务上错误。Controlled concrete reasoning 的核心问题就是，模型何时应该调用视觉模拟、如何判断 rollout 可信、以及如何把它纳入最终回答。

PF-OPSD 的训练方式比较巧妙：teacher 可以利用真实未来作为 privileged context 来评价 on-policy concrete-reasoning trajectory，但部署时 student 不依赖真实未来。这使模型有机会学会“怎样使用假想未来”，而不是在测试时偷看答案。对 robotics、video prediction、物理推理和 embodied QA，这类方法比单纯提高 VLM 静态图像问答能力更贴近真实任务。

ENTRY 013/016

[ CONTINUALLEARNING · MEMORY · RL · LLM · 论文 ]

Language Models Need Sleep：用 memory consolidation 与 Dreaming 做持续学习

(Language Models Need Sleep)

→ HF Papers · → arXiv

Google 研究者提出 “Sleep” paradigm，让模型把短期 in-context knowledge 通过 memory consolidation 转移到长期参数中，并用 “Dreaming” 阶段通过 RL 生成课程化 synthetic data 进行自我改进。论文将 sleep 拆成 Knowledge Seeding 和 Dreaming，实验覆盖 long-horizon、continual learning、knowledge incorporation 和 few-shot generalization。

当前 LLM 很擅长在上下文里临时学习，但不擅长把多次交互中出现的新知识稳定写回长期能力。很多 agent memory 方案只是在外部存储里保存文本，模型参数本身不会变；这篇论文则尝试把短期记忆压入更大网络，再通过自生成课程继续强化。

它仍是研究概念，不应过度解读成可直接上线的 self-modifying agent。但问题方向很重要：如果 agent 要长期服务同一个组织、项目或用户，只靠 RAG memory 会越来越臃肿，参数级、adapter 级或 skill 级 consolidation 迟早会成为工程问题。Sleep / Dreaming 提供了一个把持续学习和自我改进拆阶段处理的参考框架。

ENTRY 014/016

[ GITHUB · TTS · SPEECH · MULTIMODAL · 开源模型 ]

VoxCPM2：tokenizer-free multilingual TTS 与 voice cloning 开源项目升温

(VoxCPM2)

→ GitHub

OpenBMB / ModelBest 的 VoxCPM2 在 GitHub Python daily trending 中靠前，项目定位为 tokenizer-free TTS for multilingual speech generation、creative voice design 和 true-to-life cloning。仓库显示其为 2026 年 GitHub 论文/项目，并延续 VoxCPM 的 context-aware speech generation 与 voice cloning 方向。

语音模型正在从“读一段文字”走向可设计、可克隆、可多语言控制的生成系统。Tokenizer-free TTS 的吸引力在于减少离散 tokenizer 对语音细节、韵律和跨语言表达的损耗，尤其适合 creative voice design 和高保真 voice cloning 任务。

这类项目对开发者的价值不只是 demo 音质，而是能否形成可部署的 speech layer：多语言输入、情绪和风格控制、低延迟推理、speaker consistency、安全水印与滥用防护。VoxCPM2 当前还需要进一步核验 model card、license 和 benchmark，但它作为开源语音生成方向的热点值得跟踪。

ENTRY 015/016

[ GITHUB · CODINGAGENT · WORKFLOW · AGENTS · AWS ]

AI-DLC workflows：AWS 开源面向 coding agents 的自适应开发生命周期规则

(AI-DLC Workflows)

→ GitHub

awslabs / aidlc-workflows 是 AI-Driven Development Life Cycle adaptive workflow steering rules，面向 AI coding agents 提供可安装到 Cursor、Cline、Claude Code、AGENTS.md / CLAUDE.md 等环境的工作流规则。仓库包含 inception、construction、operations 等规则目录，目标是把 AI 编码过程拆成可治理的软件生命周期。

很多 coding agent 失败不是模型不会写代码，而是任务边界、验证顺序、需求澄清、实现粒度和回滚策略没有被约束。AI-DLC workflows 的价值在于把这些隐性工程习惯做成可分发规则，让不同 agent 客户端都能加载同一套开发生命周期指令。

这类规则库不应被看作 prompt collection，而更像轻量 process-as-code。它和 Claude Code skills、Codex plugins、NVIDIA verified skills、AGENTS.md 等方向一致：当 agent 进入团队协作后，组织需要可版本化、可审计、可迁移的行为规范，而不是每个开发者临时写一段 prompt。

ENTRY 016/016

[ HN · GITHUB · AGENT · STATEMACHINE · 可靠性 ]

Statewright：用可视化状态机约束 AI agent 行为

(Statewright)

→ HN · → GitHub

Statewright 是 HN 上的新 Show HN 项目，定位为 visual state machines that make AI agents reliable。项目核心不是再用一个 LLM orchestrator，而是用确定性状态机约束 agent 当前能做什么、何时越界、卡住后如何切换路径，并可通过 MCP 让 agent 帮你构建状态机。

agent orchestration 的一个常见误区是用另一个 LLM 管理 LLM。Statewright 选择更保守的路径：把 workflow 表达成状态机，LLM 只在允许的状态和 transition 内行动；当它尝试不在范围内的动作、进入错误路径或卡住时，状态机可以给出明确反馈。

这种思路特别适合有固定流程但每一步需要自然语言判断的场景，例如 onboarding、incident response、数据清洗、审批流、合规检查和多步骤工具任务。对开发者来说，它提醒我们：可靠 agent 不一定需要更复杂的 prompt，有时需要的是把不可控生成限制在可验证的流程图里。

其他值得关注

Paseo：面向 phone / desktop / CLI 的开源 coding agent interface (Paseo) — Paseo：面向 phone / desktop / CLI 的开源 coding agent interface
Microsoft Scout：always-on personal agent / Autopilots (Microsoft Scout) — Microsoft Scout：always-on personal agent / Autopilots
NVIDIA DGX Spark June 2026 system software (DGX Spark local agents) — NVIDIA DGX Spark June 2026 system software
Cohere Command A+ API availability (Command A+) — Cohere Command A+ API availability
Product Hunt AI results (Product Hunt AI) — Product Hunt AI results

← 2026.05.31 2026.06.13 →