ENTRY 001/016
[ OPENAI · CODEX · AGENT · KNOWLEDGEWORK · PLUGIN ]
Codex 扩展到 role-specific plugins、Sites 与 annotations
(Codex for every role, tool, and workflow)
OpenAI 在 6 月 2 日发布 Codex 新工作流,称 Codex 周活用户已超过 500 万,非开发者约占 20% 且增速超过开发者 3 倍。新能力包括六个面向不同角色的 plugins、Business / Enterprise 预览版 Sites,以及可直接标注文档、表格、幻灯片和网站局部内容的 annotations。
这条的意义不是 Codex 又多了一个 UI 功能,而是 coding agent 的执行面开始从 repo / IDE 扩展到知识工作产物。Plugins 让 Codex 连接团队已有工具、权限和上下文,Sites 则把一次性生成内容变成可共享、可更新的轻量应用或工作空间,适合客户评审页、launch hub、scenario planner、运营 dashboard 这类本来需要工程或低代码平台才能完成的内部工具。
对企业技术团队,这类产品化路线会改变 agent 集成边界。Codex 不再只是“帮工程师写代码”,而是成为可以创建、修改和维护结构化工作资产的 agent runtime。真正要评估的不只是模型质量,还包括插件权限、站点托管边界、annotations 追踪、管理员控制和生成资产在团队流程中的审计方式。
ENTRY 002/016
[ OPENAI · AWS · BEDROCK · CODEX · ENTERPRISEAI ]
OpenAI frontier models 与 Codex 在 AWS 上一般可用
(OpenAI frontier models and Codex are now available on AWS)
OpenAI 宣布 frontier models 与 Codex 在 AWS 上一般可用,其中 OpenAI models on Amazon Bedrock 面向 AWS 原生安全与治理控制,Codex 也可进入企业已有采购、计费和合规路径。OpenAI 同时预告 Daybreak / Codex Security 等 cyber capabilities 未来会沿 AWS 路径提供。
这类云平台可用性发布通常容易被低估,但它会直接影响企业采用速度。很多组织不是不能调用 OpenAI API,而是不能绕开现有的 IAM、审计、采购、数据边界和云治理流程。进入 Bedrock 后,OpenAI 模型和 Codex 可以被放进 AWS 客户熟悉的 deployment、billing 和 security posture 里,降低从试点到生产的阻力。
Daybreak 的预告也值得跟踪。OpenAI 把 secure code review、threat modeling、patch validation、dependency risk analysis、detection 和 remediation guidance 描述为未来 cyber capability,这与 Anthropic Glasswing / Claude Security 的方向形成直接竞争:frontier model 不只写代码,也开始进入软件防御和供应链安全闭环。
ENTRY 003/016
[ MINIMAX · LLM · CODINGAGENT · LONGCONTEXT · MULTIMODAL ]
MiniMax M3:frontier coding、1M context 与原生多模态合并到同一模型
(MiniMax M3)
MiniMax 在 6 月 1 日发布 M3,官方标题强调 frontier coding、1M context、native multimodality 和 MSA(MiniMax Sparse Attention)。第三方报道称 API 已上线,MiniMax 承诺 10 天内发布开放权重和技术报告;Reddit / LocalLLaMA 社区则提醒在权重和参数细节正式可见前,应谨慎看待“open-weight”表述。
M3 值得进入 Tier 0,因为它同时命中当前开放模型竞争的三个关键维度:agentic coding、超长上下文和原生多模态。1M context 本身不是新概念,但把它和 coding / computer-use / multimodal 能力放在同一模型产品里,会让模型更适合长仓库分析、长文档决策、视觉界面操作和多步骤 agent 任务。
这里需要保留一个工程判断:官方宣称“将成为同类中唯一开源模型”,但简报时间点上权重和完整技术报告尚未稳定可核验。因此更稳妥的结论是,M3 已经是重要候选模型,但真正是否改变部署选型,要等 model card、license、权重、context 代价、serving 路径和第三方 benchmark 出来后再判断。
ENTRY 004/016
[ MICROSOFT · COPILOT · AGENT · MCP · ENTERPRISEAI ]
Microsoft Work IQ APIs:让企业 agent 直接访问 Microsoft 365 语义工作上下文
(Announcing the new Work IQ APIs)
Microsoft 宣布 Work IQ APIs 将于 2026 年 6 月 16 日 GA。Work IQ 会从 email、calendar、meetings、chats、files、people、collaboration patterns 和 line-of-business systems 中构建实时组织语义层,并为 agent 提供 Context、Tools、Chat、MCP、A2A、Organizational Intelligence 等接口。
Work IQ APIs 是典型的平台级 agent 基础设施。传统 Microsoft Graph / Office API 是给人写应用用的,agent 需要的是低延迟上下文、压缩后的语义结果、少量通用工具、审计边界和 tenant trust boundary。Microsoft 把工具面折叠成 10 个 generic tools,并通过 MCP progressive disclosure 暴露能力,目的就是减少 agent 需要学习和调用的 API 表面。
两个数字尤其值得看:Microsoft 称 Work IQ APIs 相比传统 API 运行更快,并在 coding harness 内部测试中减少 80% tokens。若这个方向成立,企业 agent 的成本优化会从 prompt compression 上移到平台运行时:平台先理解组织上下文,再把 agent 需要的最小语义包交出去,而不是让外层 agent 自己读原始邮件、会议和文件。
ENTRY 005/016
[ NVIDIA · MICROSOFT · LOCALAGENT · WINDOWS · SANDBOX ]
NVIDIA 与 Microsoft 推出 Windows 本地 agent sandbox / runtime stack
(Build Personal AI Agents on Windows PCs with New Tools from Microsoft and NVIDIA)
NVIDIA 与 Microsoft 在 COMPUTEX / Build 2026 期间发布面向 Windows 本地 agent 的工具链:Microsoft eXecution Containers(MXC)作为身份与策略执行的 containment 层,NVIDIA OpenShell 集成 MXC 并提供 policy、inference routing 和 PII obfuscation;RTX Spark 设备提供 1 petaflop AI 性能和最高 128GB memory。
本地 agent 最大问题不是模型能不能跑,而是 agent 能不能安全地碰本机文件、应用和系统资源。MXC / OpenShell 的价值在于把“agent 执行代码、访问文件、操作 app”从普通进程权限里拆出来,放进带身份、策略和隔离的执行容器。对开发者,这比单纯在 Windows 上跑一个 LLM 更重要,因为 prompt injection 和越权访问通常发生在工具执行层。
RTX Spark / DGX Spark 方向也说明本地 agent 不再只是消费者玩具。长上下文、多 subagent、持续任务和隐私敏感工作流都会推高本地算力需求。NVIDIA 把 NemoClaw、Hermes Agent、H Company Holo 3.1、llama.cpp、ComfyUI 多 GPU 支持放进同一条叙事,本质是在做“个人 AI workstation”的运行时生态。
ENTRY 006/016
[ ANTHROPIC · CYBERSECURITY · CLAUDE · AGENTSECURITY · PROGRESSUPDATE ]
🔄 进展更新:Anthropic 扩展 Project Glasswing 并推出 Claude Security
(Expanding Project Glasswing)
Anthropic 将 Project Glasswing 从最初约 50 个合作伙伴扩展到约 150 个新组织,并要求加入者满足安全要求。官方称 Claude Security 已发布,可使用 Claude Opus 4.8 等公开 frontier models 扫描代码库并建议补丁,同时向可信安全团队按需释放 Glasswing 合作伙伴使用的漏洞发现工具。
5 月底的已知信息是 Glasswing 合作伙伴用 Mythos Preview 发现了 10,000+ high / critical vulnerabilities;今天的新进展是 Anthropic 开始把这套能力从封闭试点推向更大的防御生态。真正的瓶颈也从“模型能不能发现漏洞”转成“如何验证、披露、修复并部署补丁”。
这条需要作为进展更新收录,因为它标志着 AI cyber-defense 从模型展示进入流程工程。Claude Security 面向普通代码库扫描和 patch suggestion,Glasswing 工具面向可信安全团队,二者一起说明 frontier lab 正在把 cyber model、产品、合作伙伴和 disclosure / patching 基础设施组合成长期平台,而不是一次性 benchmark。
ENTRY 007/016
[ GITHUB · AGENT · CONTEXTENGINEERING · MCP · TOKENOPTIMIZATION ]
Headroom:面向 AI agents 的本地可逆上下文压缩层
(Headroom)
Headroom 是一个本地 context compression layer,可压缩 tool outputs、logs、RAG chunks、files 和 conversation history,官方宣称 60-95% token reduction。它提供 Python / TypeScript library、drop-in proxy、MCP server、Claude / Codex / Cursor / Aider / Copilot wrapper、cross-agent memory 和可逆 CCR 检索机制。
随着 agent 使用 tool outputs、长日志、搜索结果和多轮记忆,真正昂贵的不是单轮 prompt,而是大量低价值上下文被反复塞进模型。Headroom 的设计很实用:ContentRouter 识别 JSON、code、prose 等内容类型,SmartCrusher / CodeCompressor / Kompress-base 分别处理结构化、AST 和文本,CCR 保存原文并让模型需要时再 retrieve。
它还把 agent 工程里几个分散问题放到同一层:KV cache prefix 稳定、跨 agent memory、MCP 工具、失败会话挖掘并写回 CLAUDE.md / AGENTS.md / GEMINI.md。如果这些 benchmark 能被复现,Headroom 代表的不是“又一个压缩器”,而是 agent runtime 的 context middleware。
ENTRY 008/016
[ VLLM · RLHF · POSTTRAINING · SERVING · INFERENCE ]
vLLM Native RL APIs:把 weight syncing 与 async RL 接入 serving runtime
(Native RL APIs in vLLM)
vLLM 发布 Native RL APIs,面向大规模 post-training 工作负载中反复出现的两个问题:训练与推理之间的 weight syncing 依赖各框架临时实现,以及 async RL 在 P/D 与 DPEP 部署下容易脆弱。新 API 支持 trainer rank 0 与 inference workers 加入共享 NCCL process group、custom weight transfer、pause / resume、keep mode 和 DPEP deadlock 修复。
后训练越来越像分布式系统问题,而不只是算法问题。RL trainer 需要持续生成 rollouts、更新权重、同步到 inference workers,再继续采样;如果 weight syncing、pause / resume 和 process group 管理都靠各训练框架自己拼,规模一上去就会变成不可维护的 glue code。
vLLM 把这些能力放入 serving runtime,说明推理引擎正在向 post-training runtime 延伸。对做 RLHF、agent RL、tool-use RL 或大规模 rejection / distillation pipeline 的团队,这类 API 的价值在于减少框架间重复实现,并让训练端与推理端在异步场景下有更稳定的同步协议。
ENTRY 009/016
[ 论文 · POSTTRAINING · DISTILLATION · LLM · RL ]
Trust Region On-Policy Distillation:用 trust region 稳定 OPD token-level supervision
(Trust Region On-Policy Distillation)
Samsung Research 提出 TrOPD,用 trust regions、outlier estimation 和 off-policy guidance 改善 on-policy distillation 在 teacher / student distribution mismatch 下的不稳定问题。论文称 TrOPD 在数学推理、代码生成和通用 benchmark 上持续超过 OPD、EOPD、REOPOLD 等 baseline。
On-policy distillation 的问题在于 teacher 要监督 student 自己生成的 token,但当 student distribution 偏离 teacher 很远时,teacher 给出的 token-level signal 可能不可靠,甚至让 reverse-KL estimator 进入优化失败区域。TrOPD 的思路是只在 teacher 监督可信的 trust region 里做 OPD,对 outlier 区域使用 clipping、masking 或 forward-KL,并让 student 从 teacher prefixes 继续生成以获得更可靠的探索轨迹。
这和最近小模型、端侧模型、agent 模型的趋势直接相关。很多团队希望把大型 teacher 的 tool-use、coding、reasoning 能力蒸馏到更小学生模型,但蒸馏不是简单跑 SFT;如果 student 自己的 rollout 太差,token 级监督会把噪声当信号。TrOPD 提供了一个更细的 credit assignment 视角。
ENTRY 010/016
[ 机器人 · HUMANOID · MOTIONCONTROL · TRANSFORMER · 论文 ]
Humanoid-GPT:用 2B-frame motion corpus 训练 GPT-style whole-body controller
(Humanoid-GPT)
Humanoid-GPT 是一个 GPT-style Transformer whole-body controller,用 causal attention 在 billion-scale motion corpus 上预训练。论文称其 2B-frame retargeted corpus 整合主要 mocap datasets 与大规模内部录制数据,使单一生成式 Transformer 能在 unseen motions 和 control tasks 上做 zero-shot generalization。
机器人控制正在借鉴语言模型的 scaling recipe:不再只为单个任务训练浅层 tracker,而是把多数据源、多动作、多场景的运动轨迹统一成可自回归建模的序列。Humanoid-GPT 把 whole-body motion tracking 放到 GPT-style causal Transformer 里,目标是通过数据与模型规模同时提升动态动作跟踪和未见任务泛化。
对 embodied AI 研究者,这条的价值在于它把“模型结构”和“数据规模”同时推上去。传统控制器常受限于少量 mocap 和 agility-generalization trade-off,Humanoid-GPT 如果能稳定 zero-shot 到新动作和控制任务,就说明机器人基础模型的路线不只在 VLA,也可能在 motion-token / trajectory-token 级别形成独立预训练范式。
ENTRY 011/016
[ AGENT · MEDICALAI · BENCHMARK · EVALUATION · 论文 ]
AutoMedBench:五阶段评测 medical AutoResearch agent 的可靠性
(AutoMedBench)
AutoMedBench 是面向 autonomous medical-AI research 的 workflow-aware benchmark,将 agent 执行拆成 Plan、Setup、Validate、Inference、Submit 五阶段,覆盖 segmentation、image enhancement、VQA、report generation、lesion detection 五条 track。论文称每次运行平均 33 agent turns,错误分析显示 Validate 是平均最弱阶段,verification 与 submission failures 分别占 37.7% 和 38.1%。
医疗 AI agent 的风险不在于它不会生成方案,而在于它可能把错误 pipeline 顺利跑完并提交一个看似合理的结果。AutoMedBench 把评测从最终分数拆到 workflow stage,能看到 agent 是卡在规划、环境配置、验证、推理还是提交,这比只看任务最终指标更接近真实 research workflow。
最有价值的发现是 Validate 阶段最弱,而 task-understanding errors 只有 0.9%。这说明当前 agent 很多时候听懂了任务,也能把环境搭起来,但缺少足够可靠的实验验证和提交检查。对医疗、科学计算和企业数据分析 agent 来说,未来改进重点应该是 validation harness、metric checking、artifact verification 和失败恢复,而不是继续堆 prompt。
ENTRY 012/016
[ WORLDMODEL · MULTIMODAL · REASONING · DISTILLATION · 论文 ]
World Models Meet Language Models:用 PF-OPSD 训练可控 concrete reasoning
(World Models Meet Language Models)
腾讯团队提出 controlled concrete reasoning,将 visual future simulation 与 abstract reasoning 结合。论文构建 VRQABench 与 OpenWorldQA 两个人工验证 benchmark,并提出 Privileged-Future On-Policy Self-Distillation(PF-OPSD),训练时使用真实未来视频和答案作为 teacher-side privileged context,测试时 student 不看真实未来;结果在两个 benchmark 上分别提升 10.6% 和 10.9%。
World model 能生成具体未来画面,MLLM 能做抽象推理,但两者直接拼接会遇到一个问题:生成 rollout 可能视觉上合理但任务上错误。Controlled concrete reasoning 的核心问题就是,模型何时应该调用视觉模拟、如何判断 rollout 可信、以及如何把它纳入最终回答。
PF-OPSD 的训练方式比较巧妙:teacher 可以利用真实未来作为 privileged context 来评价 on-policy concrete-reasoning trajectory,但部署时 student 不依赖真实未来。这使模型有机会学会“怎样使用假想未来”,而不是在测试时偷看答案。对 robotics、video prediction、物理推理和 embodied QA,这类方法比单纯提高 VLM 静态图像问答能力更贴近真实任务。
ENTRY 013/016
[ CONTINUALLEARNING · MEMORY · RL · LLM · 论文 ]
Language Models Need Sleep:用 memory consolidation 与 Dreaming 做持续学习
(Language Models Need Sleep)
Google 研究者提出 “Sleep” paradigm,让模型把短期 in-context knowledge 通过 memory consolidation 转移到长期参数中,并用 “Dreaming” 阶段通过 RL 生成课程化 synthetic data 进行自我改进。论文将 sleep 拆成 Knowledge Seeding 和 Dreaming,实验覆盖 long-horizon、continual learning、knowledge incorporation 和 few-shot generalization。
当前 LLM 很擅长在上下文里临时学习,但不擅长把多次交互中出现的新知识稳定写回长期能力。很多 agent memory 方案只是在外部存储里保存文本,模型参数本身不会变;这篇论文则尝试把短期记忆压入更大网络,再通过自生成课程继续强化。
它仍是研究概念,不应过度解读成可直接上线的 self-modifying agent。但问题方向很重要:如果 agent 要长期服务同一个组织、项目或用户,只靠 RAG memory 会越来越臃肿,参数级、adapter 级或 skill 级 consolidation 迟早会成为工程问题。Sleep / Dreaming 提供了一个把持续学习和自我改进拆阶段处理的参考框架。
ENTRY 014/016
[ GITHUB · TTS · SPEECH · MULTIMODAL · 开源模型 ]
VoxCPM2:tokenizer-free multilingual TTS 与 voice cloning 开源项目升温
(VoxCPM2)
OpenBMB / ModelBest 的 VoxCPM2 在 GitHub Python daily trending 中靠前,项目定位为 tokenizer-free TTS for multilingual speech generation、creative voice design 和 true-to-life cloning。仓库显示其为 2026 年 GitHub 论文/项目,并延续 VoxCPM 的 context-aware speech generation 与 voice cloning 方向。
语音模型正在从“读一段文字”走向可设计、可克隆、可多语言控制的生成系统。Tokenizer-free TTS 的吸引力在于减少离散 tokenizer 对语音细节、韵律和跨语言表达的损耗,尤其适合 creative voice design 和高保真 voice cloning 任务。
这类项目对开发者的价值不只是 demo 音质,而是能否形成可部署的 speech layer:多语言输入、情绪和风格控制、低延迟推理、speaker consistency、安全水印与滥用防护。VoxCPM2 当前还需要进一步核验 model card、license 和 benchmark,但它作为开源语音生成方向的热点值得跟踪。
ENTRY 015/016
[ GITHUB · CODINGAGENT · WORKFLOW · AGENTS · AWS ]
AI-DLC workflows:AWS 开源面向 coding agents 的自适应开发生命周期规则
(AI-DLC Workflows)
awslabs / aidlc-workflows 是 AI-Driven Development Life Cycle adaptive workflow steering rules,面向 AI coding agents 提供可安装到 Cursor、Cline、Claude Code、AGENTS.md / CLAUDE.md 等环境的工作流规则。仓库包含 inception、construction、operations 等规则目录,目标是把 AI 编码过程拆成可治理的软件生命周期。
很多 coding agent 失败不是模型不会写代码,而是任务边界、验证顺序、需求澄清、实现粒度和回滚策略没有被约束。AI-DLC workflows 的价值在于把这些隐性工程习惯做成可分发规则,让不同 agent 客户端都能加载同一套开发生命周期指令。
这类规则库不应被看作 prompt collection,而更像轻量 process-as-code。它和 Claude Code skills、Codex plugins、NVIDIA verified skills、AGENTS.md 等方向一致:当 agent 进入团队协作后,组织需要可版本化、可审计、可迁移的行为规范,而不是每个开发者临时写一段 prompt。
ENTRY 016/016
[ HN · GITHUB · AGENT · STATEMACHINE · 可靠性 ]
Statewright:用可视化状态机约束 AI agent 行为
(Statewright)
Statewright 是 HN 上的新 Show HN 项目,定位为 visual state machines that make AI agents reliable。项目核心不是再用一个 LLM orchestrator,而是用确定性状态机约束 agent 当前能做什么、何时越界、卡住后如何切换路径,并可通过 MCP 让 agent 帮你构建状态机。
agent orchestration 的一个常见误区是用另一个 LLM 管理 LLM。Statewright 选择更保守的路径:把 workflow 表达成状态机,LLM 只在允许的状态和 transition 内行动;当它尝试不在范围内的动作、进入错误路径或卡住时,状态机可以给出明确反馈。
这种思路特别适合有固定流程但每一步需要自然语言判断的场景,例如 onboarding、incident response、数据清洗、审批流、合规检查和多步骤工具任务。对开发者来说,它提醒我们:可靠 agent 不一定需要更复杂的 prompt,有时需要的是把不可控生成限制在可验证的流程图里。