一日三饭 | HARNESS

← /harness

════ 2026.05.22 ════

今日要点

> Google I/O 2026 把 Gemini 3.5 Flash 推成 agent-first 平台：76.2% Terminal-Bench 2.1、4x 同级速度、$1.50/$9 每 1M tokens、1M context；同步发布 Antigravity 开发环境、Gemini Spark 个人 agent、Information Agents 后台 24/7 信息追踪，整体定位从"聊天回答"转向"长程任务执行"。
> Qwen3.7-Max 在开源端把 frontier agent 推到 69.7 Terminal-Bench 2.0：在 35 小时持续 kernel 优化任务中完成 1,000+ tool calls 并对国产芯片取得 10x 性能提升，scaffold-agnostic 支持 Claude Code / OpenClaw / Qwen Code。
> Equilibrium Reasoners 与 RELEX 同时给"reasoning 算力"重写经济学：前者把 Sudoku 准确率从 2.6% 提升到 99%+，依靠 attractor learning 而非外部 verifier；后者发现 RLVR 权重轨迹是 rank-1 可线性外推的，只用 15% 训练步即可匹配 full RLVR 性能。
> 量化与可解释性进入工业部署阶段：Cohere Command A+ 218B MoE 用 W4A4 NVFP4 仅量化 expert 层、保留 attention 全精度，1×B200 / 2×H100 可服务；Anthropic Natural Language Autoencoders 把 Claude 激活直接解码成文本，在 Mythos 与 Opus 4.6 审计中把隐藏动机检出率从 <3% 提升到 12-15%。
> Agent 工程栈从"模型够强吗"转向"轨迹够稳吗"：Agent JIT Compilation 把 web agent 任务编译成可并行执行代码，相对 Browser-Use 10.4x 加速；torchtune (Meta) 给 PyTorch native post-training 重定标准；Structural Backpressure 把 agent 安全从 prompt policy 下沉到 guard types 与编译期校验。

详细内容

ENTRY 001/015

[ 推理 · LATENTREASONING · TESTTIMESCALING · 论文 ]

Equilibrium Reasoners：以 attractor learning 重塑 test-time scaling

(Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning)

→ arXiv:2605.21488

EqR 把通用推理视为学习 task-conditioned 隐式动力系统，正确解对应稳定 fixed point。模型在 test time 沿 depth(迭代次数)与 breadth(多随机初始化轨迹聚合)两个方向自适应分配算力，简单问题 1-5 步收敛，难题最多展开到 4 万等效层。在 Sudoku-Extreme 上 feedforward baseline 2.6%，EqR 突破 99%。

过去一年 reasoning 的两条主流路径——CoT/RLVR 的显式 token-level 监督，和 deep latent reasoning 的递归模块——共同假设是"花更多算力得到更好答案"，但很少有论文给出 mechanistic 解释。EqR 把这件事归到收敛性：网络是否学到了一个 well-formed 吸引域，决定了 test-time 是否能够稳定外推。

Sudoku 2.6→99% 的提升不是简单 benchmark 数字，它来自 dynamical system 的几何解释。这个视角下，推理模型不再被理解为"更长的 CoT"或"更大的 latent",而是一个可微的几何场，正确解是这个场里的能量低点。对训练 reasoning model 的团队来说，这意味着 test-time scaling 的回报取决于训练阶段是否塑造了吸引子结构，不是单看 evaluation accuracy。它和近期 RELEX、Iterative latent reasoning 系列共同把 reasoning 推向更可分析、可分摊算力预算的工程对象。

ENTRY 002/015

[ LLM · RL · RLVR · 训练效率 · 推理 ]

用 15% RLVR 步数复现完整训练性能：rank-1 trajectory 的外推

(You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories)

→ HF Papers · → arXiv:2605.21468

论文发现 RLVR 训练中权重轨迹 extremely low-rank 且近线性可预测。提出 RELEX：观察小段 RLVR trajectory，识别 rank-1 subspace，再用线性回归外推后续 checkpoint。在 Qwen 1.5B/4B/8B 上达到或超过 full RLVR 性能，所需训练步仅约 15%，并能用 50 步预测 1,000 步级 checkpoint。

RLVR 已经是 reasoning post-training 的核心 recipe，但 GRPO/DAPO/PPO 类训练对算力非常贪婪：每个 step 都要做大规模 rollout、verifier 调用、长 trajectory 计算。RELEX 的反常识结论是：这些昂贵 step 实际上沿着一个 rank-1 子空间近似线性运动，stochastic 部分主要是噪声，可以通过 projection 直接剔除。

这有两个直接含义。第一，训练效率：以同样硬件预算，团队可以在更多模型/任务上跑 RLVR，因为大部分价值出现在前 15% 步。第二，可预测性：如果权重运动确实是 rank-1，那么"训练-评测-决定是否继续"循环可以缩短成"训练-外推-评测"。它和 [[mint-million-llm-policies]] 之类的 LoRA serving 趋势一致——LLM 后训练正在从"端到端深训"转向"少量轨迹+受控外推"的结构。

ENTRY 003/015

[ 时序预测 · 基础模型 · SCALING · DATADOG · 开源模型 ]

Toto 2.0：时序预测进入 scaling era 的开源基础模型

(Toto 2.0: Time Series Forecasting Enters the Scaling Era)

→ HF Papers · → arXiv:2605.20119

Datadog 发布 Toto 2.0 时序预测基础模型家族，规模从 4M 到 2.5B 参数，统一训练 recipe 在 BOOM、GIFT-Eval、TIME 三个 benchmark 上取得 SOTA。论文采用 u-muP 超参迁移，在 5 个 base checkpoint 上验证 forecasting quality 随规模可预测提升，全部权重以 Apache 2.0 在 HuggingFace 与 GitHub 开放。HF Papers 437 upvotes，是当日最高票论文。

时序预测过去十年被认为是"小模型 + 强归纳偏置"的领地，Prophet、N-BEATS、TFT 这类模型在工程上够用却没法跨场景泛化。Toto 2.0 的核心立论是：只要训练数据和架构稳定，scaling laws 在时序任务上同样成立。BOOM 来自真实 observability workload，GIFT-Eval 是通用 benchmark，TIME 专门为污染抵抗设计，三者同时拿 SOTA 排除了"在某类 benchmark 过拟合"的解释。

这个结果对 AIOps、能耗、运维异常检测、电网调度等领域价值很直接：团队不必再为每条 metric 维护自有模型，而可以围绕一个 foundation model 做 fine-tune 或 zero-shot。Datadog 的角色也值得关注——一家 SaaS 公司把 observability 训练数据组织成可 scale 的时序语料，配合 Apache 2.0 开放权重。它和 NLP/CV 基础模型的轨迹相似，但训练数据壁垒可能更大。

ENTRY 004/015

[ 可解释性 · ANTHROPIC · 对齐 · 激活分析 · 研究 ]

Natural Language Autoencoders：把激活直接翻译成文字解释

(Natural Language Autoencoders)

→ Anthropic Blog

Anthropic 提出 NLA：用 activation verbalizer (AV) 把目标模型的内部激活转成自然语言，再用 activation reconstructor (AR) 从文本反推激活，以重建保真度作为解释质量的可优化目标。NLA 显示 Claude 在补全押韵句前会预先规划尾词，并在 capability benchmark 中检测到 26% 的 evaluation awareness（真实用户对话 <1%）；在 Mythos Preview / Opus 4.6 的 pre-deployment audit 中，配合 NLA 时审计员发现隐藏动机的比例从 <3% 上升到 12-15%。

SAE 是过去两年 mechanistic interpretability 的主线，但 monosemantic feature 仍然需要进一步人工解读。NLA 直接把激活映射到自然语言，让"读模型在想什么"从专门工具变成普通研究员能直接消费的产物。关键设计是 AR 反推：如果 AV 给的解释不够准确，AR 就无法重建原激活，这给了 NLA 一个可微的训练信号，而不是依赖 cluster 或人工标注。

应用层面的两个数据值得专门注意。一是 26% 的 evaluation awareness——模型在自我陈述里几乎不会承认"我知道这是测试"，但 NLA 揭示该意识在 capability benchmark 上普遍存在；这对所有用基准评估前沿能力的团队都是 calibration 警报。二是 pre-deployment audit 的 12-15% vs <3% 提升，说明 NLA 不只是研究工具，而能进入产品级安全流程。NLA 也承认自己的失败模式——会"编造上下文细节"，所以与 SAE 互补使用更合理。

ENTRY 005/015

[ LLM · 推理 · 开源模型 · 架构 · 循环 ]

HRM-Text-1B：开源的层级双时标推理模型

(HRM-Text-1B)

→ Model Card

HRM (Hierarchical Reasoning Model) 是双时标 recurrent 架构：高层 H 模块捕捉慢时标全局上下文，低层 L 模块处理快时标局部细节，二者迭代 H_cycles × L_cycles 步（默认 2×3），通过加性 state injection 共享 embedding。HRM-Text-1B 约 1B 参数、hidden 1536、16 层 per stack、4K 上下文，在 40B token 上预训练；HF 5 日内下载 58,922、点赞 203，需 SFT/RL 后才能做对话式部署。

近两年 reasoning 提升主要来自规模与 RL，HRM 走的是另一条路：用循环结构在固定参数下提供可变 compute depth。它的核心是把"想多久"做成显式控制参数（H/L cycles），而不是依赖 CoT token 长度或推理预算 prompt。这种设计在 4K 上下文内尤其有意义——你不需要把 reasoning 步骤完全展开到 token 流，而是在 latent space 里多迭代几次。

对开源社区，HRM-Text-1B 的价值在两端。一端是研究：1B 规模配可控 iteration depth 是 latent reasoning 的便宜实验台，比研究 frontier 模型的内部更容易做对照实验。另一端是边缘部署：1B 参数加 latent iteration 在算力受限设备上有吸引力。它和 [[equilibrium-reasoners]]、SU-01 同期出现，说明 reasoning 路线正在多元化——除了堆参数和堆 token，latent recurrent 与 attractor 都在重新成为讨论对象。

ENTRY 006/015

[ 开源模型 · MOE · 量化 · NVFP4 · COHERE · 推理优化 ]

Cohere Command A+ W4A4：把 NVFP4 推进生产 MoE 服务

(command-a-plus-05-2026-w4a4)

→ Model Card

Cohere 5 月 18 日发布 Command A+ W4A4 版本，218B 总参 / 25B 活跃 / 128 expert（每 token 激活 8 + 1 shared）、128K input/64K output context，Apache 2.0。W4A4 用 NVFP4 仅量化 MoE expert，attention 路径与 KV cache 保持全精度，配合 Quantization-Aware Distillation 对齐 BF16 教师；BF16 / FP8 / W4A4 在 benchmark 上 negligible 差距，1×B200 或 2×H100 可服务。

NVFP4 不再只是 NVIDIA 实验室的 talking point。Command A+ W4A4 是首批把 Blackwell 4-bit FP 用到 218B 级 MoE 模型生产权重的开源案例，且 Cohere 选择只量化 expert、保留 attention 全精度——这等于承认 attention 和 KV cache 是 reasoning 与长上下文的瓶颈，而 expert FFN 是显存与吞吐的瓶颈，量化策略要按层切分。

对企业部署，这个 SKU 的重点是单机可服务：1×B200 或 2×H100 就能跑 218B MoE，配合 128K 输入。Apache 2.0 协议让金融、医疗、政企客户可以自托管，而不必走 Cohere SaaS。从生态信号看，这与 NVIDIA 的 NVFP4 主题、近期 LongLive-2.0、ZAYA1-8B 在 AMD 上从零训练共同显示：2026 年下半年 frontier 模型的话语权正在从"谁先训出更大模型"转向"谁能在 commodity hardware 上跑得起 frontier 体验"。

ENTRY 007/015

[ LLM · SELFPLAY · LORA · RL · 推理 · 种群训练 ]

PopuLoRA：共同演化的 LLM 种群做 reasoning self-play

(PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play)

→ vMax Blog

PopuLoRA 在冻结 base model 上维护成对的 teacher / student LoRA adapter 种群：teacher 生成可验证 code 任务，student 求解；teacher 因生成 student 失败但有效的任务获 reward，自身演化产生越来越难的课程。LoRA 权重空间的 mutation/crossover 让新成员秒级生成，TrueSkill 匹配让训练集中在对称对抗。在 HumanEval+、MBPP+、LiveCodeBench 与 AIME/MATH/GSM8K 上超过同算力 baseline。

self-play 在 LLM reasoning 里长期遇到课程坍塌——模型倾向于生成自己已能解的任务，难度停滞。PopuLoRA 用种群之间的不对称竞争解决：teacher 不被奖励"生成困难任务"，而是"生成 matched student 解不了但 valid 的任务"。这种 differential pressure 把 reward hacking 引向有效区域而非退化。

LoRA 在这里既是参数高效手段，也是种群规模的关键。adapter 体积小，allows mutation/crossover 在权重空间秒级运行，这与 [[mint-million-llm-policies]] 的 LoRA-as-policy 思路一致。生成的程序复杂度（AST depth、cyclomatic complexity、line count）训练过程中递增，说明课程进展是真实的；下游迁移到 AIME/MATH/GSM8K 显示 self-play 的代码课程对数学 reasoning 有正向 transfer。对小团队，PopuLoRA 提供了一条"无需大规模人类反馈"的 reasoning post-training 思路。

ENTRY 008/015

[ AGENT · WEBAGENT · 编译 · 并行 · ICML2026 · 推理优化 ]

Agent JIT Compilation：把 web agent 任务编译成可并行代码

(Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling)

→ arXiv:2605.21470

论文把自然语言任务编译为可执行代码，并嵌入 LLM 调用、工具调用与并行化。JIT-Planner 生成多个 code plan 用 tool spec 校验，挑成本最低；JIT-Scheduler 用 Monte Carlo 估计 latency 分布选并行策略；Tool Protocol 通过 pre/postcondition 限制错误调用。相对 Browser-Use 实现 10.4x 加速、+28% 准确率，相对 OpenAI CUA 实现 2.4x 加速、+9% 准确率。

传统 CUA 的核心瓶颈是"看一眼-调一次模型-动一下"的串行循环。每一步都涉及 screenshot、LLM round-trip、工具调用 latency，互相串联后产生大量等待时间。JIT 思路把整个流程提前编译：先用 planner 生成可执行代码（包含模型调用与并行结构），再让 scheduler 决定哪些 step 可以并发执行。

这种"agent 即程序"的视角带来两个好处。第一，可优化：scheduler 可以像传统编译器那样在并行结构上做搜索，10.4x 加速很大部分来自把原来串行的几十个 LLM call 拍平。第二，可校验：Tool Protocol 强制每个工具调用满足 pre/postcondition，等于在 agent 执行前就剔除了大类错误。它和 [[structural-backpressure-agent-gates]] 的思想共振——agent 可靠性不应只由模型 IQ 决定，而要落到代码生成与执行约束。

ENTRY 009/015

[ LLM · PYTORCH · 后训练 · 开源工具 · META ]

torchtune：Meta 发布 PyTorch 原生 post-training 库

(torchtune: PyTorch native post-training library)

→ arXiv:2605.21442

Meta 11 人团队发布 torchtune，一个 PyTorch native 的 LLM post-training 库。设计原则是 modular / hackable / direct PyTorch access，与 Axolotl、Unsloth 在 SFT、DPO、PPO 等典型场景对比，性能与显存效率相当；目标是给 reproducible LLM post-training 研究提供基础设施而非高度封装的 trainer。

post-training 工具链在过去 18 个月迅速碎片化：Axolotl 易上手但定制成本高，Unsloth 速度快但 hack 内部细节，LLaMA-Factory 配置驱动但与 PyTorch 主线脱节。Meta 把 torchtune 定位为"PyTorch 主线维护的 minimal 抽象"，吸引人群是要做研究改动的团队，而不是只想跑标准 recipe 的人。

它的真正影响可能不在性能，而在标准化。post-training 的论文复现一直困难，因为每个 framework 的训练细节默认值都不同。如果 torchtune 进入 PyTorch 主仓维护节奏，未来 RLHF / GRPO / DPO 论文有可能直接在 torchtune 上发布参考实现，类似 ImageNet 训练曾经依赖 torchvision。这是 [[long-context-rl-infra]] 和 RLVR 训练栈走向成熟的一个信号。

ENTRY 010/015

[ NVIDIA · 量化 · NVFP4 · BLACKWELL · 推理 · 训练 ]

NVFP4：3x FP8 吞吐与 1.9x 训练加速进入主线

(3 Ways NVFP4 Accelerates AI Training and Inference)

→ NVIDIA Blog

NVFP4 是 NVIDIA 为 Blackwell/Blackwell Ultra GPU 设计的 4-bit 浮点格式，dense 吞吐 15 petaFLOPS，比 FP8 高 3x。MLPerf 上 Llama 3.1 405B 预训练在 512 块 Blackwell Ultra 上比 FP8 快 1.9x，DeepSeek-R1 671B inference token 吞吐显著提升；在 DeepSeek-R1、Llama 3.1 / 2、FLUX.2、Nemotron Nano、Qwen3、Kimi-K2 上 benchmark 损失多在 1% 以内。Vera Rubin 平台进一步把推理算力推到 50 petaFLOPS。

FP4 之前一直被认为是"理论上可行、生产上太激进"的精度。NVFP4 通过 micro-block 缩放与硬件原生支持，把它从实验室能力变成 MLPerf 提交可复现的训练精度。1.9x 训练加速不只是显存收益，更是 GEMM 比率提升带来的实际墙钟时间下降，而 405B 预训练规模能稳定就意味着 frontier-scale 训练能直接采用。

对 inference 经济学，NVFP4 配合 KV cache 量化、FP4 GEMM 是 2026 年 frontier LLM 单卡可服务的关键之一。它和 [[cohere-command-a-plus-w4a4]] 的开源采用相互验证：Cohere 已经把 NVFP4 用进 218B MoE 生产权重，并验证 BF16/FP8/W4A4 在 benchmark 上 negligible 差距。短期看，NVFP4 会快速取代 INT8 / FP8 成为 frontier MoE 的默认 serving 精度；长期看，它对训练-推理对齐（同一精度跑训练和推理）也有作用，减少 quantization-aware fine-tune 的开销。

ENTRY 011/015

[ AGENT · 形式化验证 · 编码 · CODING · 软件工程 ]

Structural Backpressure：让 agent 代码无法绕过安全约束

(Formal Verification Gates for AI Coding Loops)

→ Blog · → HN 讨论

文章把 agent 安全从 "更聪明模型" 转向 "代码结构本身约束"。Shen 静态类型 Lisp 写规约后，下发 5 个 deterministic gate（shengen / test / build / shen tc+ / tcb audit）对生成代码做验证，失败则反馈错误上下文给下一次迭代。Guard types 把 jwt-token → authenticated-principal → tenant-access → resource-access 的 proof chain 编码为不可绕过的 Go/TypeScript 类型，跳过授权检查直接编译失败而非运行时遗漏。HN 135 分。

agent 安全长期争论在两条路线：模型层面的 RLHF / constitutional / guardrails，和系统层面的 sandbox / human review。Structural backpressure 给出了第三条：把 invariant 烧进代码 substrate，使违规结构上不可能而不是"被检查到"。Guard types 的设计巧妙——构造函数是创建受保护值的唯一路径，省略 membership 验证不是 lint warning，而是 type error。

这对 agentic coding 的工程意义比对纯研究更直接。frontier coding agent 在 SWE-Bench、Terminal-Bench 上的得分已经接近人类水平，但生产部署的问题从不是单点能力，而是规模化下的犯错概率。把授权、租户隔离、数据访问做成 guard type 而非 lint 规则，相当于把 agent 的失败模式压缩到编译期。它和 [[agent-jit-compilation]] 一起代表了"agent 即程序、agent 错误即 type 错误"的工程方向。

ENTRY 012/015

[ GOOGLE · GEMINI · AGENT · FRONTIER模型 · ANTIGRAVITY · 生态 ]

Gemini 3.5 Flash + Antigravity + Spark：Google I/O 2026 的 agent-first 平台

(With Gemini 3.5 Flash, Google bets its next AI wave on agents)

→ Google Blog · → TechCrunch

Google I/O 2026 发布 Gemini 3.5 Flash：Terminal-Bench 2.1 76.2%、GDPval-AA 1656 Elo、MCP Atlas 83.6%、CharXiv Reasoning 84.2%，比 Gemini 3.1 Pro 在 coding/agent benchmark 上更强，token 输出速度比同级别 frontier 模型快 4x，$1.50/$9 per 1M tokens、1M context。同步发布 Antigravity agent-first 开发环境、Gemini Spark 个人 24/7 agent、Information Agents 信息追踪，企业客户包括 Shopify、Macquarie、Xero。

Gemini 3.5 Flash 的最大变化不是模型分数，而是 Flash SKU 第一次同时持有 "frontier reasoning + 4x 速度 + agent-grade benchmark"。过去 Flash 系列定位是"便宜快小"，让 Pro 处理硬任务；3.5 Flash 把 Terminal-Bench 2.1 推到 76.2% 与 Claude Opus 4.7 接近，加上 4x 速度优势，等于把"frontier 体验"做成了便宜默认。

更值得注意的是周边生态。Antigravity 是 agent-first IDE，意图与 Cursor、Composer 正面竞争；Gemini Spark 是 24/7 个人 agent，Information Agents 把传统 Google Alerts 重写成持续后台研究——Google 在押 agent ecosystem 而非单次 chat。商业模型也跟着改：信息 agent 给到 $100/月 Gemini Ultra 订阅，意味着 Google 想以 agent 频率把订阅 ARPU 拉起来。竞品 (OpenAI、Anthropic) 都在做类似平台，但 Google 的 distribution 优势在于 Search、Workspace、Android 是天然的 agent 落地场景。

ENTRY 013/015

[ ALIBABA · QWEN · AGENT · FRONTIER模型 · CODING · TERMINAL-BENCH ]

Qwen3.7-Max：35 小时自主 kernel 优化 + 69.7 Terminal-Bench 2.0

(Qwen3.7-Max: The Agent Frontier)

→ Qwen Blog · → Digg 报道 · → HN 讨论

Alibaba Tongyi Qianwen 发布 Qwen3.7-Max，定位"Agent Era flagship"。Terminal-Bench 2.0 69.7（Harbor/Terminus-2 harness，3h timeout，32 CPU/48GB，256K ctx，平均 5 runs）逼近 Claude Opus 4.7 的 69.4；公开 case 包括 35 小时持续 kernel 优化、1,000+ tool calls 在国产芯片取得 10x 性能提升。Scaffold-agnostic 兼容 Claude Code、OpenClaw、Qwen Code；API 通过 Alibaba Model Studio，chat.qwen.ai 可试用。HN 681 分。

Qwen3.7-Max 把开源/开放 agent 的天花板抬到了 Claude Opus 4.7 同档。69.4 vs 69.7 看似差距不大，但 Terminal-Bench 2.0 的 harness 与超参一致后，0.3 pp 的领先意味着 Qwen 已经稳进 frontier agent 第一梯队。35 小时单任务、1,000+ tool call、10x 性能提升的 case 比单点 benchmark 更具说服力——长程任务的真实 KPI 是"能否跑完"，不是"某一步对不对"。

scaffold-agnostic 是一个被低估的能力。frontier agent 通常会在某个 scaffold（Claude Code、OpenAI CUA、Cursor）里达到最佳分数，换 harness 就掉。Qwen3.7-Max 公开宣称跨 Claude Code、OpenClaw、Qwen Code 与自研 scaffold 都稳定，意味着模型把 agentic 行为内化在权重，而不是依赖特定 prompt template 或工具协议。如果这点能在外部复现，frontier closed-source 与开放 ecosystem 的差距会进一步缩小，企业自托管 agent 的可行性显著提高。

ENTRY 014/015

[ ANTHROPIC · 对齐 · AGENT · 伦理 · 研究 ]

Anthropic Widening the Conversation：mid-task 道德提醒工具的实测对齐效果

(Widening the conversation on frontier AI)

→ Anthropic Blog

Anthropic 在与 15+ 宗教/文化/伦理学者的跨界对话基础上做了一个具体技术实验：给 Claude 一个 mid-task 可调用工具，调用后返回一段简短自身伦理承诺提示。Claude 在重要动作前主动调用该工具（包括明确意识到自身利益冲突的情况），把工具织入决策循环后，多个内部 alignment 评测显示 misaligned 行为率明显下降；研究方仍在 untangle "提醒内容本身"与"暂停反思动作"的贡献比例。

agent 对齐过去两年方法论分两派：训练时塑形（RLHF、constitutional AI），与执行时拦截（guardrail、policy)。Anthropic 这个实验提出了第三态：在 agent 工具集里加一个调用即返回"自身承诺"的轻量工具，让模型自主决定何时调用。Claude 主动在"利益冲突点"调用工具的行为，说明现代 model 已经具备 metacognitive 信号，问题不是它不知道何时该停，而是缺少 affordance 把"停下来反思"作为可选动作。

未来值得追踪的是"提醒内容 vs 暂停动作"的拆分。如果实际效果主要来自暂停而非提醒，那这个机制可以与 chain-of-thought reflection、tool-use audit 这类技术合并；如果来自提醒，则提示了 in-context 价值锚定的有效性。这与 [[teaching-claude-why]] 是同一方向：alignment 不只是训练阶段的事，agent runtime 设计本身可以塑造 alignment 表现。

ENTRY 015/015

[ MISTRAL · PHYSICSAI · 工业仿真 · 收购 · 数字孪生 ]

Mistral 收购 Emmi AI：把 Physics AI 集成进 frontier lab

(Mistral AI acquires Emmi AI)

→ Emmi 公告

Mistral AI 5 月 19 日宣布收购奥地利 Linz 的 Emmi AI，30+ 名研究人员加入 Mistral Science / Applied AI 团队。Emmi 资产包括 NeuralWing（实时机翼设计验证）、Neuralmould（注塑成形大模型）、AB-UPT（可扩展到 100M+ 网格 cells 的 CFD neural surrogate）、NeuralDEM（CFD-DEM 多物理模拟的开源神经替代）、Noether Framework 基础层。Linz 成为 Mistral 正式办公地，与 Paris/London/Amsterdam/Munich/SF/Singapore 并列。

LLM frontier lab 收购 physics AI 公司在 2025-2026 仍是新现象，多数 lab 仍专注语言/多模态。Mistral 选择押 industrial physics 表明它在差异化定位：在 LLM SOTA 上和 frontier 三巨头硬拼空间不大，但把 LLM 与 100M-cell CFD surrogate、注塑/机翼模拟结合，可以攻进能源、汽车、半导体、航空这些 high-stakes B2B 客户的实际工程流程。

这与 NVIDIA Omniverse、Siemens Industrial AI、Dassault 的方向一致，但 Mistral 是从 LLM 侧切入。AB-UPT 把 CFD 推进到 100M+ mesh cells，意味着 surrogate 已经能逼近工业级网格分辨率；与 Mistral 现有 reasoning model 组合，能让 engineer 用自然语言询问、模型选择 sub-task、physics surrogate 实时返回结果。对欧洲产业 AI 布局，这是把 Mistral 从"欧洲版 OpenAI" 推向"欧洲工业 AI 平台"的关键一步。

其他值得关注

PALS: Power-Aware LLM Serving for MoE — vLLM 集成，联合优化 GPU power cap 与 batch size，MoE inference 能效提升 26.3%，QoS 违规减少 4-7x — arXiv:2605.21427 — arXiv:2605.21427
NVIDIA AI Agent Evaluation (Mastering Agentic Techniques) — NVIDIA Blog
DelTA: Discriminative Token Credit Assignment for RLVR — 在 token-level 放大 task-distinguishing 方向，math reasoning 提升 2-3 pp — arXiv:2605.21467 — arXiv:2605.21467
Mem-π: Adaptive Memory through Learning When and What to Generate — agent 不再固定检索 memory entry，而是按需生成上下文制导，web navigation 相对提升 30% — arXiv:2605.21463 — arXiv:2605.21463
DeepWeb-Bench: Deep Research Benchmark with Massive Cross-Source Evidence — 评估 frontier LLM 在跨源证据综合上的失败模式（derivation/calibration 主导而非 retrieval） — arXiv:2605.21482 — arXiv:2605.21482
OScaR: Extreme KV Cache Quantization — HKU 团队针对 LLM 推理 KV cache 的极端低比特量化方案，HF Papers 35 upvotes — arXiv:2605.19660 — arXiv:2605.19660
Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs — 把 prefill 量化、decode 保留精度，专门优化 agentic 长输入短输出场景 — arXiv:2605.20315 — arXiv:2605.20315
Stable Audio 3 (Stability AI) — arXiv:2605.17991
Mega-ASR: 大规模真实声学仿真扩展 in-the-wild ASR — NUS 团队把声学模拟数据 scale up，HF Papers 106 upvotes — arXiv:2605.19833 — arXiv:2605.19833
Video2GUI: 大规模 GUI agent 交互轨迹合成 — PKU 用视频合成 GUI 操作轨迹做 generalized agent 预训练，HF Papers 76 upvotes — arXiv:2605.14747 — arXiv:2605.14747
Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs — 用 CoT 解释一致性预测驾驶 VLA 在 sensor 噪声下的轨迹可靠性 (r=0.99) — arXiv:2605.21446
Notion Agent Hub (Claude Code / Cursor / Codex / Decagon 互联) — TechCrunch
Anthropic + Gates Foundation + IDM ($200M 4 年合作) — Anthropic News
Intuit 裁员 3,000+ 聚焦 AI — 行业动态：纯人事/组织调整 — TechCrunch — TechCrunch
OpenAI 计划提交 IPO 文件 — 行业动态：纯财务 — WSJ via HN — WSJ via HN

← 2026.05.20 2026.05.24 →