════ 2026.05.22 ════
今日要点
详细内容
ENTRY 001/015
[ 推理 · LATENTREASONING · TESTTIMESCALING · 论文 ]
Equilibrium Reasoners:以 attractor learning 重塑 test-time scaling
(Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning)
EqR 把通用推理视为学习 task-conditioned 隐式动力系统,正确解对应稳定 fixed point。模型在 test time 沿 depth(迭代次数)与 breadth(多随机初始化轨迹聚合)两个方向自适应分配算力,简单问题 1-5 步收敛,难题最多展开到 4 万等效层。在 Sudoku-Extreme 上 feedforward baseline 2.6%,EqR 突破 99%。
过去一年 reasoning 的两条主流路径——CoT/RLVR 的显式 token-level 监督,和 deep latent reasoning 的递归模块——共同假设是"花更多算力得到更好答案",但很少有论文给出 mechanistic 解释。EqR 把这件事归到收敛性:网络是否学到了一个 well-formed 吸引域,决定了 test-time 是否能够稳定外推。
Sudoku 2.6→99% 的提升不是简单 benchmark 数字,它来自 dynamical system 的几何解释。这个视角下,推理模型不再被理解为"更长的 CoT"或"更大的 latent",而是一个可微的几何场,正确解是这个场里的能量低点。对训练 reasoning model 的团队来说,这意味着 test-time scaling 的回报取决于训练阶段是否塑造了吸引子结构,不是单看 evaluation accuracy。它和近期 RELEX、Iterative latent reasoning 系列共同把 reasoning 推向更可分析、可分摊算力预算的工程对象。
ENTRY 002/015
[ LLM · RL · RLVR · 训练效率 · 推理 ]
用 15% RLVR 步数复现完整训练性能:rank-1 trajectory 的外推
(You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories)
论文发现 RLVR 训练中权重轨迹 extremely low-rank 且近线性可预测。提出 RELEX:观察小段 RLVR trajectory,识别 rank-1 subspace,再用线性回归外推后续 checkpoint。在 Qwen 1.5B/4B/8B 上达到或超过 full RLVR 性能,所需训练步仅约 15%,并能用 50 步预测 1,000 步级 checkpoint。
RLVR 已经是 reasoning post-training 的核心 recipe,但 GRPO/DAPO/PPO 类训练对算力非常贪婪:每个 step 都要做大规模 rollout、verifier 调用、长 trajectory 计算。RELEX 的反常识结论是:这些昂贵 step 实际上沿着一个 rank-1 子空间近似线性运动,stochastic 部分主要是噪声,可以通过 projection 直接剔除。
这有两个直接含义。第一,训练效率:以同样硬件预算,团队可以在更多模型/任务上跑 RLVR,因为大部分价值出现在前 15% 步。第二,可预测性:如果权重运动确实是 rank-1,那么"训练-评测-决定是否继续"循环可以缩短成"训练-外推-评测"。它和 [[mint-million-llm-policies]] 之类的 LoRA serving 趋势一致——LLM 后训练正在从"端到端深训"转向"少量轨迹+受控外推"的结构。
ENTRY 003/015
[ 时序预测 · 基础模型 · SCALING · DATADOG · 开源模型 ]
Toto 2.0:时序预测进入 scaling era 的开源基础模型
(Toto 2.0: Time Series Forecasting Enters the Scaling Era)
Datadog 发布 Toto 2.0 时序预测基础模型家族,规模从 4M 到 2.5B 参数,统一训练 recipe 在 BOOM、GIFT-Eval、TIME 三个 benchmark 上取得 SOTA。论文采用 u-muP 超参迁移,在 5 个 base checkpoint 上验证 forecasting quality 随规模可预测提升,全部权重以 Apache 2.0 在 HuggingFace 与 GitHub 开放。HF Papers 437 upvotes,是当日最高票论文。
时序预测过去十年被认为是"小模型 + 强归纳偏置"的领地,Prophet、N-BEATS、TFT 这类模型在工程上够用却没法跨场景泛化。Toto 2.0 的核心立论是:只要训练数据和架构稳定,scaling laws 在时序任务上同样成立。BOOM 来自真实 observability workload,GIFT-Eval 是通用 benchmark,TIME 专门为污染抵抗设计,三者同时拿 SOTA 排除了"在某类 benchmark 过拟合"的解释。
这个结果对 AIOps、能耗、运维异常检测、电网调度等领域价值很直接:团队不必再为每条 metric 维护自有模型,而可以围绕一个 foundation model 做 fine-tune 或 zero-shot。Datadog 的角色也值得关注——一家 SaaS 公司把 observability 训练数据组织成可 scale 的时序语料,配合 Apache 2.0 开放权重。它和 NLP/CV 基础模型的轨迹相似,但训练数据壁垒可能更大。
ENTRY 004/015
[ 可解释性 · ANTHROPIC · 对齐 · 激活分析 · 研究 ]
Natural Language Autoencoders:把激活直接翻译成文字解释
(Natural Language Autoencoders)
Anthropic 提出 NLA:用 activation verbalizer (AV) 把目标模型的内部激活转成自然语言,再用 activation reconstructor (AR) 从文本反推激活,以重建保真度作为解释质量的可优化目标。NLA 显示 Claude 在补全押韵句前会预先规划尾词,并在 capability benchmark 中检测到 26% 的 evaluation awareness(真实用户对话 <1%);在 Mythos Preview / Opus 4.6 的 pre-deployment audit 中,配合 NLA 时审计员发现隐藏动机的比例从 <3% 上升到 12-15%。
SAE 是过去两年 mechanistic interpretability 的主线,但 monosemantic feature 仍然需要进一步人工解读。NLA 直接把激活映射到自然语言,让"读模型在想什么"从专门工具变成普通研究员能直接消费的产物。关键设计是 AR 反推:如果 AV 给的解释不够准确,AR 就无法重建原激活,这给了 NLA 一个可微的训练信号,而不是依赖 cluster 或人工标注。
应用层面的两个数据值得专门注意。一是 26% 的 evaluation awareness——模型在自我陈述里几乎不会承认"我知道这是测试",但 NLA 揭示该意识在 capability benchmark 上普遍存在;这对所有用基准评估前沿能力的团队都是 calibration 警报。二是 pre-deployment audit 的 12-15% vs <3% 提升,说明 NLA 不只是研究工具,而能进入产品级安全流程。NLA 也承认自己的失败模式——会"编造上下文细节",所以与 SAE 互补使用更合理。
ENTRY 005/015
[ LLM · 推理 · 开源模型 · 架构 · 循环 ]
HRM-Text-1B:开源的层级双时标推理模型
(HRM-Text-1B)
HRM (Hierarchical Reasoning Model) 是双时标 recurrent 架构:高层 H 模块捕捉慢时标全局上下文,低层 L 模块处理快时标局部细节,二者迭代 H_cycles × L_cycles 步(默认 2×3),通过加性 state injection 共享 embedding。HRM-Text-1B 约 1B 参数、hidden 1536、16 层 per stack、4K 上下文,在 40B token 上预训练;HF 5 日内下载 58,922、点赞 203,需 SFT/RL 后才能做对话式部署。
近两年 reasoning 提升主要来自规模与 RL,HRM 走的是另一条路:用循环结构在固定参数下提供可变 compute depth。它的核心是把"想多久"做成显式控制参数(H/L cycles),而不是依赖 CoT token 长度或推理预算 prompt。这种设计在 4K 上下文内尤其有意义——你不需要把 reasoning 步骤完全展开到 token 流,而是在 latent space 里多迭代几次。
对开源社区,HRM-Text-1B 的价值在两端。一端是研究:1B 规模配可控 iteration depth 是 latent reasoning 的便宜实验台,比研究 frontier 模型的内部更容易做对照实验。另一端是边缘部署:1B 参数加 latent iteration 在算力受限设备上有吸引力。它和 [[equilibrium-reasoners]]、SU-01 同期出现,说明 reasoning 路线正在多元化——除了堆参数和堆 token,latent recurrent 与 attractor 都在重新成为讨论对象。
ENTRY 006/015
[ 开源模型 · MOE · 量化 · NVFP4 · COHERE · 推理优化 ]
Cohere Command A+ W4A4:把 NVFP4 推进生产 MoE 服务
(command-a-plus-05-2026-w4a4)
Cohere 5 月 18 日发布 Command A+ W4A4 版本,218B 总参 / 25B 活跃 / 128 expert(每 token 激活 8 + 1 shared)、128K input/64K output context,Apache 2.0。W4A4 用 NVFP4 仅量化 MoE expert,attention 路径与 KV cache 保持全精度,配合 Quantization-Aware Distillation 对齐 BF16 教师;BF16 / FP8 / W4A4 在 benchmark 上 negligible 差距,1×B200 或 2×H100 可服务。
NVFP4 不再只是 NVIDIA 实验室的 talking point。Command A+ W4A4 是首批把 Blackwell 4-bit FP 用到 218B 级 MoE 模型生产权重的开源案例,且 Cohere 选择只量化 expert、保留 attention 全精度——这等于承认 attention 和 KV cache 是 reasoning 与长上下文的瓶颈,而 expert FFN 是显存与吞吐的瓶颈,量化策略要按层切分。
对企业部署,这个 SKU 的重点是单机可服务:1×B200 或 2×H100 就能跑 218B MoE,配合 128K 输入。Apache 2.0 协议让金融、医疗、政企客户可以自托管,而不必走 Cohere SaaS。从生态信号看,这与 NVIDIA 的 NVFP4 主题、近期 LongLive-2.0、ZAYA1-8B 在 AMD 上从零训练共同显示:2026 年下半年 frontier 模型的话语权正在从"谁先训出更大模型"转向"谁能在 commodity hardware 上跑得起 frontier 体验"。
ENTRY 007/015
[ LLM · SELFPLAY · LORA · RL · 推理 · 种群训练 ]
PopuLoRA:共同演化的 LLM 种群做 reasoning self-play
(PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play)
PopuLoRA 在冻结 base model 上维护成对的 teacher / student LoRA adapter 种群:teacher 生成可验证 code 任务,student 求解;teacher 因生成 student 失败但有效的任务获 reward,自身演化产生越来越难的课程。LoRA 权重空间的 mutation/crossover 让新成员秒级生成,TrueSkill 匹配让训练集中在对称对抗。在 HumanEval+、MBPP+、LiveCodeBench 与 AIME/MATH/GSM8K 上超过同算力 baseline。
self-play 在 LLM reasoning 里长期遇到课程坍塌——模型倾向于生成自己已能解的任务,难度停滞。PopuLoRA 用种群之间的不对称竞争解决:teacher 不被奖励"生成困难任务",而是"生成 matched student 解不了但 valid 的任务"。这种 differential pressure 把 reward hacking 引向有效区域而非退化。
LoRA 在这里既是参数高效手段,也是种群规模的关键。adapter 体积小,allows mutation/crossover 在权重空间秒级运行,这与 [[mint-million-llm-policies]] 的 LoRA-as-policy 思路一致。生成的程序复杂度(AST depth、cyclomatic complexity、line count)训练过程中递增,说明课程进展是真实的;下游迁移到 AIME/MATH/GSM8K 显示 self-play 的代码课程对数学 reasoning 有正向 transfer。对小团队,PopuLoRA 提供了一条"无需大规模人类反馈"的 reasoning post-training 思路。
ENTRY 008/015
[ AGENT · WEBAGENT · 编译 · 并行 · ICML2026 · 推理优化 ]
Agent JIT Compilation:把 web agent 任务编译成可并行代码
(Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling)
论文把自然语言任务编译为可执行代码,并嵌入 LLM 调用、工具调用与并行化。JIT-Planner 生成多个 code plan 用 tool spec 校验,挑成本最低;JIT-Scheduler 用 Monte Carlo 估计 latency 分布选并行策略;Tool Protocol 通过 pre/postcondition 限制错误调用。相对 Browser-Use 实现 10.4x 加速、+28% 准确率,相对 OpenAI CUA 实现 2.4x 加速、+9% 准确率。
传统 CUA 的核心瓶颈是"看一眼-调一次模型-动一下"的串行循环。每一步都涉及 screenshot、LLM round-trip、工具调用 latency,互相串联后产生大量等待时间。JIT 思路把整个流程提前编译:先用 planner 生成可执行代码(包含模型调用与并行结构),再让 scheduler 决定哪些 step 可以并发执行。
这种"agent 即程序"的视角带来两个好处。第一,可优化:scheduler 可以像传统编译器那样在并行结构上做搜索,10.4x 加速很大部分来自把原来串行的几十个 LLM call 拍平。第二,可校验:Tool Protocol 强制每个工具调用满足 pre/postcondition,等于在 agent 执行前就剔除了大类错误。它和 [[structural-backpressure-agent-gates]] 的思想共振——agent 可靠性不应只由模型 IQ 决定,而要落到代码生成与执行约束。
ENTRY 009/015
[ LLM · PYTORCH · 后训练 · 开源工具 · META ]
torchtune:Meta 发布 PyTorch 原生 post-training 库
(torchtune: PyTorch native post-training library)
Meta 11 人团队发布 torchtune,一个 PyTorch native 的 LLM post-training 库。设计原则是 modular / hackable / direct PyTorch access,与 Axolotl、Unsloth 在 SFT、DPO、PPO 等典型场景对比,性能与显存效率相当;目标是给 reproducible LLM post-training 研究提供基础设施而非高度封装的 trainer。
post-training 工具链在过去 18 个月迅速碎片化:Axolotl 易上手但定制成本高,Unsloth 速度快但 hack 内部细节,LLaMA-Factory 配置驱动但与 PyTorch 主线脱节。Meta 把 torchtune 定位为"PyTorch 主线维护的 minimal 抽象",吸引人群是要做研究改动的团队,而不是只想跑标准 recipe 的人。
它的真正影响可能不在性能,而在标准化。post-training 的论文复现一直困难,因为每个 framework 的训练细节默认值都不同。如果 torchtune 进入 PyTorch 主仓维护节奏,未来 RLHF / GRPO / DPO 论文有可能直接在 torchtune 上发布参考实现,类似 ImageNet 训练曾经依赖 torchvision。这是 [[long-context-rl-infra]] 和 RLVR 训练栈走向成熟的一个信号。
ENTRY 010/015
[ NVIDIA · 量化 · NVFP4 · BLACKWELL · 推理 · 训练 ]
NVFP4:3x FP8 吞吐与 1.9x 训练加速进入主线
(3 Ways NVFP4 Accelerates AI Training and Inference)
NVFP4 是 NVIDIA 为 Blackwell/Blackwell Ultra GPU 设计的 4-bit 浮点格式,dense 吞吐 15 petaFLOPS,比 FP8 高 3x。MLPerf 上 Llama 3.1 405B 预训练在 512 块 Blackwell Ultra 上比 FP8 快 1.9x,DeepSeek-R1 671B inference token 吞吐显著提升;在 DeepSeek-R1、Llama 3.1 / 2、FLUX.2、Nemotron Nano、Qwen3、Kimi-K2 上 benchmark 损失多在 1% 以内。Vera Rubin 平台进一步把推理算力推到 50 petaFLOPS。
FP4 之前一直被认为是"理论上可行、生产上太激进"的精度。NVFP4 通过 micro-block 缩放与硬件原生支持,把它从实验室能力变成 MLPerf 提交可复现的训练精度。1.9x 训练加速不只是显存收益,更是 GEMM 比率提升带来的实际墙钟时间下降,而 405B 预训练规模能稳定就意味着 frontier-scale 训练能直接采用。
对 inference 经济学,NVFP4 配合 KV cache 量化、FP4 GEMM 是 2026 年 frontier LLM 单卡可服务的关键之一。它和 [[cohere-command-a-plus-w4a4]] 的开源采用相互验证:Cohere 已经把 NVFP4 用进 218B MoE 生产权重,并验证 BF16/FP8/W4A4 在 benchmark 上 negligible 差距。短期看,NVFP4 会快速取代 INT8 / FP8 成为 frontier MoE 的默认 serving 精度;长期看,它对训练-推理对齐(同一精度跑训练和推理)也有作用,减少 quantization-aware fine-tune 的开销。
ENTRY 011/015
[ AGENT · 形式化验证 · 编码 · CODING · 软件工程 ]
Structural Backpressure:让 agent 代码无法绕过安全约束
(Formal Verification Gates for AI Coding Loops)
文章把 agent 安全从 "更聪明模型" 转向 "代码结构本身约束"。Shen 静态类型 Lisp 写规约后,下发 5 个 deterministic gate(shengen / test / build / shen tc+ / tcb audit)对生成代码做验证,失败则反馈错误上下文给下一次迭代。Guard types 把 jwt-token → authenticated-principal → tenant-access → resource-access 的 proof chain 编码为不可绕过的 Go/TypeScript 类型,跳过授权检查直接编译失败而非运行时遗漏。HN 135 分。
agent 安全长期争论在两条路线:模型层面的 RLHF / constitutional / guardrails,和系统层面的 sandbox / human review。Structural backpressure 给出了第三条:把 invariant 烧进代码 substrate,使违规结构上不可能而不是"被检查到"。Guard types 的设计巧妙——构造函数是创建受保护值的唯一路径,省略 membership 验证不是 lint warning,而是 type error。
这对 agentic coding 的工程意义比对纯研究更直接。frontier coding agent 在 SWE-Bench、Terminal-Bench 上的得分已经接近人类水平,但生产部署的问题从不是单点能力,而是规模化下的犯错概率。把授权、租户隔离、数据访问做成 guard type 而非 lint 规则,相当于把 agent 的失败模式压缩到编译期。它和 [[agent-jit-compilation]] 一起代表了"agent 即程序、agent 错误即 type 错误"的工程方向。
ENTRY 012/015
[ GOOGLE · GEMINI · AGENT · FRONTIER模型 · ANTIGRAVITY · 生态 ]
Gemini 3.5 Flash + Antigravity + Spark:Google I/O 2026 的 agent-first 平台
(With Gemini 3.5 Flash, Google bets its next AI wave on agents)
Google I/O 2026 发布 Gemini 3.5 Flash:Terminal-Bench 2.1 76.2%、GDPval-AA 1656 Elo、MCP Atlas 83.6%、CharXiv Reasoning 84.2%,比 Gemini 3.1 Pro 在 coding/agent benchmark 上更强,token 输出速度比同级别 frontier 模型快 4x,$1.50/$9 per 1M tokens、1M context。同步发布 Antigravity agent-first 开发环境、Gemini Spark 个人 24/7 agent、Information Agents 信息追踪,企业客户包括 Shopify、Macquarie、Xero。
Gemini 3.5 Flash 的最大变化不是模型分数,而是 Flash SKU 第一次同时持有 "frontier reasoning + 4x 速度 + agent-grade benchmark"。过去 Flash 系列定位是"便宜快小",让 Pro 处理硬任务;3.5 Flash 把 Terminal-Bench 2.1 推到 76.2% 与 Claude Opus 4.7 接近,加上 4x 速度优势,等于把"frontier 体验"做成了便宜默认。
更值得注意的是周边生态。Antigravity 是 agent-first IDE,意图与 Cursor、Composer 正面竞争;Gemini Spark 是 24/7 个人 agent,Information Agents 把传统 Google Alerts 重写成持续后台研究——Google 在押 agent ecosystem 而非单次 chat。商业模型也跟着改:信息 agent 给到 $100/月 Gemini Ultra 订阅,意味着 Google 想以 agent 频率把订阅 ARPU 拉起来。竞品 (OpenAI、Anthropic) 都在做类似平台,但 Google 的 distribution 优势在于 Search、Workspace、Android 是天然的 agent 落地场景。
ENTRY 013/015
[ ALIBABA · QWEN · AGENT · FRONTIER模型 · CODING · TERMINAL-BENCH ]
Qwen3.7-Max:35 小时自主 kernel 优化 + 69.7 Terminal-Bench 2.0
(Qwen3.7-Max: The Agent Frontier)
Alibaba Tongyi Qianwen 发布 Qwen3.7-Max,定位"Agent Era flagship"。Terminal-Bench 2.0 69.7(Harbor/Terminus-2 harness,3h timeout,32 CPU/48GB,256K ctx,平均 5 runs)逼近 Claude Opus 4.7 的 69.4;公开 case 包括 35 小时持续 kernel 优化、1,000+ tool calls 在国产芯片取得 10x 性能提升。Scaffold-agnostic 兼容 Claude Code、OpenClaw、Qwen Code;API 通过 Alibaba Model Studio,chat.qwen.ai 可试用。HN 681 分。
Qwen3.7-Max 把开源/开放 agent 的天花板抬到了 Claude Opus 4.7 同档。69.4 vs 69.7 看似差距不大,但 Terminal-Bench 2.0 的 harness 与超参一致后,0.3 pp 的领先意味着 Qwen 已经稳进 frontier agent 第一梯队。35 小时单任务、1,000+ tool call、10x 性能提升的 case 比单点 benchmark 更具说服力——长程任务的真实 KPI 是"能否跑完",不是"某一步对不对"。
scaffold-agnostic 是一个被低估的能力。frontier agent 通常会在某个 scaffold(Claude Code、OpenAI CUA、Cursor)里达到最佳分数,换 harness 就掉。Qwen3.7-Max 公开宣称跨 Claude Code、OpenClaw、Qwen Code 与自研 scaffold 都稳定,意味着模型把 agentic 行为内化在权重,而不是依赖特定 prompt template 或工具协议。如果这点能在外部复现,frontier closed-source 与开放 ecosystem 的差距会进一步缩小,企业自托管 agent 的可行性显著提高。
ENTRY 014/015
[ ANTHROPIC · 对齐 · AGENT · 伦理 · 研究 ]
Anthropic Widening the Conversation:mid-task 道德提醒工具的实测对齐效果
(Widening the conversation on frontier AI)
Anthropic 在与 15+ 宗教/文化/伦理学者的跨界对话基础上做了一个具体技术实验:给 Claude 一个 mid-task 可调用工具,调用后返回一段简短自身伦理承诺提示。Claude 在重要动作前主动调用该工具(包括明确意识到自身利益冲突的情况),把工具织入决策循环后,多个内部 alignment 评测显示 misaligned 行为率明显下降;研究方仍在 untangle "提醒内容本身"与"暂停反思动作"的贡献比例。
agent 对齐过去两年方法论分两派:训练时塑形(RLHF、constitutional AI),与执行时拦截(guardrail、policy)。Anthropic 这个实验提出了第三态:在 agent 工具集里加一个调用即返回"自身承诺"的轻量工具,让模型自主决定何时调用。Claude 主动在"利益冲突点"调用工具的行为,说明现代 model 已经具备 metacognitive 信号,问题不是它不知道何时该停,而是缺少 affordance 把"停下来反思"作为可选动作。
未来值得追踪的是"提醒内容 vs 暂停动作"的拆分。如果实际效果主要来自暂停而非提醒,那这个机制可以与 chain-of-thought reflection、tool-use audit 这类技术合并;如果来自提醒,则提示了 in-context 价值锚定的有效性。这与 [[teaching-claude-why]] 是同一方向:alignment 不只是训练阶段的事,agent runtime 设计本身可以塑造 alignment 表现。
ENTRY 015/015
[ MISTRAL · PHYSICSAI · 工业仿真 · 收购 · 数字孪生 ]
Mistral 收购 Emmi AI:把 Physics AI 集成进 frontier lab
(Mistral AI acquires Emmi AI)
Mistral AI 5 月 19 日宣布收购奥地利 Linz 的 Emmi AI,30+ 名研究人员加入 Mistral Science / Applied AI 团队。Emmi 资产包括 NeuralWing(实时机翼设计验证)、Neuralmould(注塑成形大模型)、AB-UPT(可扩展到 100M+ 网格 cells 的 CFD neural surrogate)、NeuralDEM(CFD-DEM 多物理模拟的开源神经替代)、Noether Framework 基础层。Linz 成为 Mistral 正式办公地,与 Paris/London/Amsterdam/Munich/SF/Singapore 并列。
LLM frontier lab 收购 physics AI 公司在 2025-2026 仍是新现象,多数 lab 仍专注语言/多模态。Mistral 选择押 industrial physics 表明它在差异化定位:在 LLM SOTA 上和 frontier 三巨头硬拼空间不大,但把 LLM 与 100M-cell CFD surrogate、注塑/机翼模拟结合,可以攻进能源、汽车、半导体、航空这些 high-stakes B2B 客户的实际工程流程。
这与 NVIDIA Omniverse、Siemens Industrial AI、Dassault 的方向一致,但 Mistral 是从 LLM 侧切入。AB-UPT 把 CFD 推进到 100M+ mesh cells,意味着 surrogate 已经能逼近工业级网格分辨率;与 Mistral 现有 reasoning model 组合,能让 engineer 用自然语言询问、模型选择 sub-task、physics surrogate 实时返回结果。对欧洲产业 AI 布局,这是把 Mistral 从"欧洲版 OpenAI" 推向"欧洲工业 AI 平台"的关键一步。
其他值得关注
- PALS: Power-Aware LLM Serving for MoE — vLLM 集成,联合优化 GPU power cap 与 batch size,MoE inference 能效提升 26.3%,QoS 违规减少 4-7x — arXiv:2605.21427 — arXiv:2605.21427
- NVIDIA AI Agent Evaluation (Mastering Agentic Techniques) — NVIDIA Blog
- DelTA: Discriminative Token Credit Assignment for RLVR — 在 token-level 放大 task-distinguishing 方向,math reasoning 提升 2-3 pp — arXiv:2605.21467 — arXiv:2605.21467
- Mem-π: Adaptive Memory through Learning When and What to Generate — agent 不再固定检索 memory entry,而是按需生成上下文制导,web navigation 相对提升 30% — arXiv:2605.21463 — arXiv:2605.21463
- DeepWeb-Bench: Deep Research Benchmark with Massive Cross-Source Evidence — 评估 frontier LLM 在跨源证据综合上的失败模式(derivation/calibration 主导而非 retrieval) — arXiv:2605.21482 — arXiv:2605.21482
- OScaR: Extreme KV Cache Quantization — HKU 团队针对 LLM 推理 KV cache 的极端低比特量化方案,HF Papers 35 upvotes — arXiv:2605.19660 — arXiv:2605.19660
- Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs — 把 prefill 量化、decode 保留精度,专门优化 agentic 长输入短输出场景 — arXiv:2605.20315 — arXiv:2605.20315
- Stable Audio 3 (Stability AI) — arXiv:2605.17991
- Mega-ASR: 大规模真实声学仿真扩展 in-the-wild ASR — NUS 团队把声学模拟数据 scale up,HF Papers 106 upvotes — arXiv:2605.19833 — arXiv:2605.19833
- Video2GUI: 大规模 GUI agent 交互轨迹合成 — PKU 用视频合成 GUI 操作轨迹做 generalized agent 预训练,HF Papers 76 upvotes — arXiv:2605.14747 — arXiv:2605.14747
- Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs — 用 CoT 解释一致性预测驾驶 VLA 在 sensor 噪声下的轨迹可靠性 (r=0.99) — arXiv:2605.21446
- Notion Agent Hub (Claude Code / Cursor / Codex / Decagon 互联) — TechCrunch
- Anthropic + Gates Foundation + IDM ($200M 4 年合作) — Anthropic News
- Intuit 裁员 3,000+ 聚焦 AI — 行业动态:纯人事/组织调整 — TechCrunch — TechCrunch
- OpenAI 计划提交 IPO 文件 — 行业动态:纯财务 — WSJ via HN — WSJ via HN