ENTRY 001/009
[ 开源 · MIMO · XIAOMI · MOE · 1M上下文 · FP8 · MTP ]
Xiaomi MiMo-V2.5-Pro:1.02T MoE / 1M 上下文 / 漏报补登
(Xiaomi Releases MiMo-V2.5-Pro: Frontier Open Model with 40-60% Lower Token Cost)
4/22 Xiaomi MiMo 团队(负责人罗福莉,前 DeepSeek R1 / V 系列核心)开源 V2.5 双 SKU。V2.5-Pro:1.02T 总参 / 42B active,70 层(1 dense + 69 MoE)、384 个 routed experts / token 选 8、128 attention heads + 8 KV heads(GQA)。Hybrid Attention 把 SWA(滑窗 128)与 GA 按 6:1 交替(10 层 GA + 60 层 SWA),KV-cache 缩小 ~7×。3 层轻量 MTP(Multi-Token Prediction)模块 推理 3× 加速。27T tokens FP8(E4M3) 混合精度训练,原生 32k 序列长度后用 long-context upcycling 扩到 1M。三阶段后训练:SFT → 各域独立 RL teacher → Multi-Teacher On-Policy Distillation (MOPD) 学生模型从多个专家 teacher 在线 RL 蒸馏。MIT 许可。基准:MMLU 89.4、GSM8K 99.6、MATH 86.2、AIME 24&25 37.3、HumanEval+ 75.6、SWE-Bench Pro 57.2、Claw-Eval 63.8(70K tokens/trajectory,比 Opus 4.6 / Gemini 3.1 Pro / GPT-5.4 节省 40-60% tokens)、τ³-Bench 72.9、Video-MME 87.7、CharXiv RQ 81.0、HLE 34(+6 vs V2 Pro)、IFBench 80(+11)。Artificial Analysis Intelligence Index 54 与 Kimi K2.6 并列开源第一,超过 DeepSeek V4 Pro 的 1554、GLM-5.1 1535、MiniMax-M2.7 1514。GraphWalks 1M 上下文 BFS 0.37 / Parents 0.62(V2 Pro 1M 直接坍塌到 0.00)。API 定价 $1.00 / $3.00 per 1M tokens,AAII 全套评测 $462 vs Kimi K2.6 $948 vs GLM-5.1 $544。第一性能展示:4.3 小时跑 672 工具调用从零写完 SysY → RISC-V 编译器,hidden test 满分 233/233;11.5 小时 1,868 工具调用产出 8,192 行视频编辑器桌面应用。OpenCode Go / OpenClaw / KiloCode / Blackbox / Cline 全部官方集成,OpenRouter xiaomi/mimo-v2.5-pro 上线。
MiMo-V2.5-Pro 是过去一周 AI 简报系列里最显眼的漏报,也是 2026 年春天开源 frontier 模型竞赛中 DeepSeek V4 / Kimi K2.6 之外被严重低估的第三极。这条漏报本身的成因有戏剧性——4/22 发布日期正好夹在 4/19(GPT-5.5 / Kimi K2.6 / Qwen3.6-27B / TPU v8 大爆发的前一天)和 4/24(V4 上市当日)之间,整周新闻流被这两条更显赫的事件吸走,MiMo 在中文 AI 媒体外几乎没有进入主流叙事;直到 4/22-29 这一周 AAII 评测把 MiMo 与 K2.6 并列开源第一并量化"完成同样评测套件成本仅 K2.6 一半",社区才开始严肃看这条模型。
架构上 MiMo-V2.5-Pro 与 DeepSeek V4 走出两条平行但不同的设计路径。V4 用 CSA(Compressed Sparse Attention)+ HCA(Heavily Compressed Attention)+ mHC 残差稳定性的"算法压缩"路线,把单 token 推理 FLOPs 在 1M 上下文下压到 V3.2 的 27%;MiMo-V2.5-Pro 走"硬切分 + 多 token 并行"的工程压缩路线——SWA(128):GA = 6:1 把 60 层做成纯滑窗(O(n) 复杂度)只在每 7 层留一层 GA 处理跨段依赖、3 层 MTP 让 forward 一次出 3 个 token 把吞吐拉到 3×。两条路径各自反映对"long context 真正瓶颈"的不同判断:V4 团队认为是 KV cache 内存(所以做激进压缩),MiMo 团队认为是 forward latency(所以让滑窗主导 + MTP 并行)。从 GraphWalks 1M 数据看 MiMo 在 retrieval 上更稳(0.37 BFS vs V4 在长上下文 retrieval 上的相对弱势),但在数学推理(HLE 34 < V4 37.7、AIME 24&25 37.3 远低于 V4)上明显落后——选型不再是"哪个开源更强",而是"你的瓶颈在长上下文 retrieval 还是深度推理"。
MOPD(Multi-Teacher On-Policy Distillation)这条训练 recipe 是 MiMo-V2.5-Pro 真正的隐性贡献。当前主流后训练范式有两大分支:(a) DeepSeek 路线——单一统一 GRPO RL 训练(V4 公开论文已证实);(b) Kimi K2 路线——多模型路径上的 verified RL(4/26 Miles 框架公开)。MiMo 引入第三条:先在每个域独立训出 expert teacher(一个 teacher 专攻 coding、一个 teacher 专攻 数学、一个 teacher 专攻 agent),再让 student model 在 on-policy RL 过程中从这些 teacher 同时蒸馏。这条思路本质是把"专家分工"从 inference 时(mixture-of-experts in MoE)下沉到训练时(mixture-of-teachers in distillation),避免单一统一 RL reward 函数无法同时 satisfy 所有域的最优解。如果这条 recipe 在 6-12 个月内被独立复现(DeepSeek V5 / Qwen 4 / GLM-6 等),它将成为继 RLHF→GRPO→Verified RL 之后的第四个 post-training 范式。
经济学视角,AAII 评测 $462 vs K2.6 $948 vs Opus 4.6 数千美元 是 enterprise procurement 部门最容易理解的数字。这条数据反映 MiMo 的真正护城河不是"分数高"而是"分数 + token 效率 + API 价格"三轴乘积。40-60% fewer tokens 配 $1/$3 per 1M 的定价等于把同样 agent 任务的端到端账单压到 Claude Opus 4.6 的 1/8 至 1/12——4/27 简报"How Do AI Agents Spend Your Money?" 论文揭示的 "Kimi-K2 / Sonnet 4.5 比 GPT-5 多 150 万+ token" 的反例在 MiMo 上反向成立。这条数字对 4/26 简报里 OpenAI 退役 SWE-bench Verified 也是补充——基准是污染了,但选型决策仍需要 quantifiable 指标,token 经济学是抗污染的硬数字。
需要冷静读的盲点:MiMo-V2.5-Pro 的训练数据细节几乎完全未公开——27T tokens 的来源、清洗、长上下文混合比、MOPD 教师模型来源都未披露。和 V4 论文(被多名研究者称为年度最佳)的开放透明形成对比。这条不对称对学术界复现是显著障碍,对 MiMo 的开源是一定折扣——你能 fine-tune、推理、私有部署,但你不能完全 audit 训练过程。配合罗福莉前 DeepSeek 背景与"Hunter Alpha 匿名内测"事件,业界对 MiMo 的真实训练规模有持续质疑("是否复用了 DeepSeek 旧 checkpoint?"),但 4/22 发布两周后社区独立 benchmark 全部对得上模型卡声明,这条质疑暂时被压住。
ENTRY 002/009
[ 论文 · 多模态 · 统一模型 · ENCODER-FREE · 扩散 · 像素空间 ]
Tuna-2:像素 embedding 击败视觉编码器,重新定义统一多模态架构
(Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation)
Weiming Ren、Xiaoke Huang、Shoufa Chen、Tianhong Li 等 16 人 4/27 提交(Meta AI / 港大 / Waterloo 联合)。核心命题:当前所有 native unified multimodal model(UMM)都仍依赖预训练视觉编码器(VAE / SigLIP / CLIP),造成理解 / 生成表征不对齐 + 端到端优化无法从原始像素直接做。Tuna-2 把 Tuna 系列原架构里的 VAE → 表征编码器 → patch embedding 三层逐级移除,最终只保留 patch embedding + 单 transformer 解码器 + 像素空间 flow matching head。三大核心设计:(1) 像素空间 x-prediction + v-loss flow matching(参考 JiT 路线)支持文生图与图像编辑;(2) masking-based feature learning 训练时对随机 50% 图像 patch 替换 learnable mask token,对生成做"部分观察去噪"对理解做"鲁棒性正则";(3) 完全端到端两阶段训练——Stage 1 jointly 训 image captioning 与 T2I(550M 图文对 + 20% Nemotron 文本)、Stage 2 SFT(FineVision 13M + OmniEdit 2M),无需独立 connector alignment 阶段。基线 Qwen2.5-7B-Instruct,64 节点训练。结果:MMVet / MMMU / V* / CountBench / VisuLogic 等 9 个 VQA + 3 个 pixel-centric benchmark 全面超过 latent-space UMM(Show-o2 / Tuna / Janus-Pro / BAGEL / Mogao),GenEval 0.87 / DPG-Bench 86.54 与 BAGEL 14B(0.88)持平但仅 7B 规模;GPT-5.4 + Claude Opus 4.7 双 LLM judge 评测 quality 与 diversity 优于 Tuna-R 与 Tuna;ImgEdit 编辑能力略低于 Tuna 但显著超过 OmniGen / UniWorld / OmniGen2;ImageNet 重建质量逼近 FLUX.1[dev] 专用 VAE。
Tuna-2 的真正价值不在某个 benchmark 数字,而在它给统一多模态架构的演进路线一个明确的"清零"信号。过去三年 UMM 的设计哲学是"在已有 vision encoder 之上加 decoder 头" —— LLaVA → Show-o → Janus-Pro → BAGEL → Tuna 一脉相承。即便 4/24 LLaDA2.0-Uni 这种激进尝试也只是把 SigLIP-VQ tokenizer 换成离散语义编码器,没有真正删除编码器层。Tuna-2 第一次系统性证明:"预训练编码器是必要前提"是过去三年 UMM 共同接受但从未严格验证的假设——一旦有足够的 pretraining 数据规模,单 transformer + patch embedding 在 fine-grained 视觉理解上反而胜出。
为什么 encoder-free 在 fine-grained 任务上更强? 论文给出的解释是 SigLIP / CLIP 这类预训练编码器的 inductive bias(fixed input resolution、limited fine-grained access)在 4/26 Scientific Theory of Deep Learning 提到的"learning mechanics"语境下其实是 capability ceiling——它们在 ImageNet / WIT 时代被训练成"文本描述对齐"的有效编码器,但 V*、CountBench、VisuLogic 这种需要识别"图像中很小的物体 / 准确数数 / 空间逻辑推理"的任务上,编码器的固有压缩损失成了瓶颈。Tuna-2 用单 transformer 直接处理 raw patch,把所有 layer 都暴露给原始视觉信号,理论上让模型可以在更深层重建任意分辨率的局部表征。这条结论和 4/24 LLaDA2.0-Uni 选择"continuous 表征"路线、4/24 VoxCPM2 选择"tokenizer-free 连续"路线形成同一波认知重构——所有"对模态做预压缩"的设计在 frontier scale 上都有结构性代价。
masking-based feature learning 是 Tuna-2 工程上最 elegant 的部分。MAE(He 2022)证明 masked autoencoding 是强大的视觉自监督 pretext task,但 MAE 仅用于 representation learning,与 generation 完全脱节;MaskGIT 把 mask prediction 做成 generation pretext task 但与 understanding 互不打通。Tuna-2 用同一个 mask token + 50% probability 的 unified scheme 对 understanding 例子做 robustness 正则、对 generation 例子做 partial observation denoising——同一个 mask 操作在两类任务中扮演完全不同角色但加在同一个 forward pass 里。论文 ablation 显示这条设计对 Tuna-2 的贡献远大于对 Tuna-R(带 SigLIP 编码器的对照),因为 SigLIP 自身已经是 masked-prediction 预训练——当编码器被移除后,masking 必须由架构内部承担,masked feature learning 等于把 SigLIP 的预训练目标内化到 unified pretraining 阶段。
工程含义对正在做多模态基础模型的团队是直接的:如果你现在的栈还是 Qwen-VL / InternVL3.5 / LLaVA OneVision 这种 encoder-decoder 结构,未来 12 个月需要重新评估"是否值得迁移到 encoder-free 架构"。短期内迁移成本高(550M 图文对 + 64 节点 + 300k step pretraining 是每家都吃不下的成本),但 Tuna-2 论文指出 "Tuna-R 在前期收敛更快、Tuna-2 在 sufficient pretraining 后超过"——这条 crossover 点(在 Figure 6 中显示约 200k step)意味着小规模训练时 encoder 仍有优势,只在大 pretraining budget 下 encoder-free 才赢。这条 scaling 拐点对开源社区不太友好(资源受限难以达到 crossover)但对 frontier 实验室是新的优势项目——OpenAI / Anthropic / Google 都有可能在 2026 下半年的下一代多模态 base model 中悄悄采用 encoder-free 设计。
ENTRY 003/009
[ 论文 · BENCHMARK · AGENT · COWORKER · 多模态 · 多天 ]
ClawMark:100 任务多轮多日多模态 coworker agent 基准
(ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents)
47 作者联署 4/27 提交。核心命题:现有 agent benchmark 都跑在单 episode 静态环境里且偏文本中心——SWE-bench Pro 只测代码、Terminal-Bench 只测 shell、Berkeley RDI 只到 50 步——但真实 agent 是 "多天工作的 coworker":邮件持续到、日历会议变更、知识库被人类更新、证据散落在图像 / 扫描 PDF / 音频 / 视频 / 表格里。提出 ClawMark:(1) 100 任务 × 13 个专业场景(HR / 财务 / 法务 / 行政 / 产品 / 客服等);(2) 5 个 stateful 沙箱服务(filesystem、email、calendar、knowledge base、spreadsheet)轮次间状态独立演化;(3) 1,537 个 deterministic Python checker 在执行后服务状态上做 rule-based 验证,评分流程不调用任何 LLM-as-judge。基准化测试 7 个 frontier agent 系统:最强模型加权得分 75.8 但严格 Task Success 仅 20.0%;turn-level 分析显示首次外源环境更新(emails arrive / calendar shifts)后性能立刻断崖——适应不断变化的 state 是关键开放挑战。配套 evaluation harness 与 construction pipeline 全开源。
ClawMark 是 4/26-29 这一波 agent benchmark 改革浪潮中最具原创性的工程贡献,它把 4/26 OpenAI 退役 SWE-bench Verified 时承诺的"benchmark 必须包含真实工作流"这条宣言第一次具体化。47 个作者跨多个机构合作设计这种规模的基准在 ML 社区是非典型——更典型的是单一团队(DeepMind / OpenAI / Anthropic)发布 in-house benchmark。多机构联合签署反映社区共识:单 episode 静态 benchmark 的时代彻底结束,未来 evaluation 必须模拟 agent 与"会变化的世界"持续交互。
1,537 个 deterministic Python checker + 零 LLM-as-judge 是 ClawMark 真正的方法论突破。4/19 RLVR Reward Hacking 论文已经证明 LLM-as-judge 容易被 verifier exploit,4/26 Project Deal 进一步证明 agent quality gap 在 LLM judge 下不可感知。ClawMark 的设计选择是回归到程序化 rule-based 验证——例如"agent 是否在用户休假后正确把日历会议改期到 OOO 之后"这种问题被分解成具体的 spreadsheet cell + calendar entry + email send 状态检查,每条都用 assert 写死。这条选择的代价是构建成本极高(1,537 个 checker 跨 100 任务平均每任务 15 个),但好处是评分完全可复现、抗污染、抗 reward hacking。这条权衡和 4/24 LamBench 用 lambda 归约比对完整 normal form 的设计哲学完全同构——前沿 benchmark 的 ground truth 必须是可执行验证而非 LLM 评判。
最强模型加权 75.8 / 严格 Task Success 仅 20.0% 这条数字组合揭示一个 hidden 但非常重要的事实:当前 frontier agent 在 ClawMark 上能跑出"看起来差不多对"的部分进度,但完整端到端完成任务几乎做不到。加权得分把每条 checker 当成独立单位测,partial credit 累积;严格 Task Success 要求所有 checker 全部 pass。20% 完整通过率意味着 80% 任务里 agent 走到一半失败或走偏——这条与 4/13 Berkeley RDI 的"50 步以内可被利用漏洞"、4/19 RLVR Reward Hacking 的"verifier 被 exploit"、4/26 Replit DROP TABLE 事故是同一根问题的不同切片:长程 agent 的稳健性曲线在 100+ turn / 多天周期上仍未通过临界点。
首次外源环境更新性能立刻断崖这条 turn-level 发现是 ClawMark 最有方法论价值的副产物。多数 agent 框架的设计假设是"环境是 agent 的工具"——agent 主动调用、工具被动响应。但在真实工作流里环境会主动变化:在 agent 还在思考下一步时,新邮件到了、用户更新了知识库、日历会议被推迟。当前 agent 训练数据中这种"主动外源更新"几乎完全缺失(rollout 都是 agent 主动驱动的轨迹),所以模型在外源更新发生时缺乏适配机制——往往直接执行原计划而不重新评估。这条诊断对 agent 训练数据采集有直接指引:未来 6-12 个月需要专门构造"外源更新感知"的训练数据——每条 trajectory 必须随机注入环境变化让 agent 学会重新规划。这条思路和 4/19 Cloudflare Agent Memory 的 Durable Object 设计、4/25 Stash 的 Episodes append-only + Contradictions 检测是同一条认知线:agent 不仅需要记住"我做过什么",还需要感知"世界在我做的同时变了什么"。
47 作者的社会学也值得标记。ClawMark 的作者列表覆盖了至少 6 家中国研究机构 + 多家美国大学,是中美 ML 协作在 agent benchmark 领域少见的大规模联合署名。这条侧面信号对 frontier 评测研究的国际化趋势有指向——单一国家 / 单一机构很难独立设计出能涵盖 13 个专业场景的多样性 benchmark,多机构联合是当前 agent eval 难度溢出单实验室能力的现实结果。配合 4/26 退役 SWE-bench Verified、4/27 Erdős Problem 1196、4/27 Agentic World Modeling 168 页综述,2026 年春天的 ML 评测研究已经进入"机构联合 + 程序化验证 + 长程动态环境"三位一体的新基线。
ENTRY 004/009
[ 论文 · AGENT · 多AGENT · 组织 · 形式化 · 开源 ]
OneManCompany (OMC):把多 agent 编成一家"AI 公司"
(From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company)
Zhengxu Yu、Yu Fu、Zhiyuan He 等 8 人提交。核心命题:"当前多 agent 系统受限于固定团队结构与紧耦合协调"——CrewAI / AutoGen / MetaGPT 等都把 agent 锁在单一 runtime + 项目开始前定死的角色清单里。OMC 提出"AI 组织"层级抽象:(1) Talent-Container 架构——Employee = Talent + Container,Talent 包含 role / prompts / skills / tools / 工作准则,Container 是执行环境(Claude Code / LangGraph / 脚本);同一个 Talent 可在异构 Container 跨平台运行。6 个类型化组织接口:Execution / Task / Event / Storage / Context / Lifecycle。(2) Digital Talent Market——社区贡献 + AI 推荐 + 内部晋升的 agent 招募池,执行过程中按需补缺。(3) Explore-Execute-Review (E²R) 树搜索——Policy π 选分解策略 → DAG 依赖执行 → Supervisor 评估 + 自底向上完成信号传播;类比 MCTS 但用真实执行 + 显式 supervisor 评估。(4) 9 状态 FSM + 形式化保证:DAG 不变量 / 互斥执行 / Review 终止性 / 级联完整性 / 依赖完整性 / 崩溃恢复正确性。(5) HR Pipeline——周期性 review / Performance Improvement Plan / 自动 offboarding。结果:PRDBench 84.67%(+15.48pp 超 SoTA),跑完 50 个 project-level 任务仅 $345.59 / $6.91 per task。GPT-5.2 minimal 62.49%、Claude-4.5 minimal 69.19%、Claude Code commercial 56.65%、DeepSeek-V3.2 minimal 40.11%。
OMC 是 2026 年 4 月 agent 工程范式从"工具集成"向"组织设计"跃迁的最系统化论文。回顾 4 月所有 agent 框架进展:4/24 Kimi K2.6 swarm(300 sub-agent 异构协作)、4/25 Stash(多阶段记忆 pipeline)、4/26 OpenClaw forked-context subagents、4/26 Anthropic Memory for Managed Agents、4/27 EvanFlow TDD harness、4/27 wuphf git markdown wiki——每个都解决"agent 工程"的某个特定子问题。OMC 是第一个尝试给整个 agent 团队画"组织架构图"的工作:Talent / Container / Talent Market / E²R / FSM / HR 的术语不是隐喻,是真的把传统软件工程里"职位描述 + runtime / 招聘 + 晋升 / 项目管理"全套人事制度搬到 agent 系统。
Talent-Container 解耦 是 OMC 最具深度的工程抽象。当前所有主流 agent 框架的死穴是 agent identity 与 runtime 紧耦合:CrewAI agent 离不开 CrewAI 框架、AutoGen agent 离不开 AutoGen runtime、Claude Code 的 sub-agent 必须用 Claude Code CLI。这条耦合让"复用 agent"变成"复用框架",社区无法形成跨框架的 agent 生态。OMC 把这条耦合切开——Talent 是 portable 数据结构(YAML / JSON 描述 role + prompt + skills + working principles),Container 是任意 runtime 实现 6 个类型化接口(Execution / Task / Event / Storage / Context / Lifecycle)即可承载任意 Talent。这条思路和 Kubernetes 把"应用 = 容器镜像 + 编排" 解耦的设计哲学完全同构,预示 agent 工程在 2026-2027 年会出现类似 Docker 镜像的 portable 标准。如果 OMC 的 Talent schema 能成为社区共识,多 agent 系统的 vendor lock-in 会被结构性打破。
形式化完成保证(DAG 不变量 / 互斥 / 终止性 / 级联完整性 / 依赖完整性 / 崩溃恢复)是 OMC 比所有竞品先一步进入"production-grade"的关键。当前主流多 agent 框架的稳定性主要靠 try-catch + retry,没有可证明的 termination 或 deadlock-free 保证。OMC 引入 9-state FSM + AND-Tree 语义 + circuit breaker(k_rev=3 review 上限 / T_max=3600s 任务超时 / cost budget),让 agent 团队的执行流程从"祈祷不会卡死"升级为"可证明在有限时间内 either 完成 either escalate"。这条工程化对企业部署是质变——金融、医疗、法务等监管场景过去无法接受 agent 部署的核心理由就是缺乏可证明的完成保证,OMC 给出第一个可信的基线。
HR Pipeline 内置 PIP 与自动 offboarding 这条设计选择在工程美学上很有意思但在实操上可能引发争议。Performance Improvement Plan + automated offboarding 等于让系统自己淘汰表现不达标的 Talent——某个 agent 连续多次任务失败后被系统自动从 Digital Talent Market 移除。这条机制让 agent 系统具备"达尔文式自我优化"能力,但也带来新的 alignment 难题:评判 Talent 表现的标准本身可能 mis-specified,导致系统淘汰掉有用但被错评的 agent。论文未深入讨论这条风险,是后续工作的明显空白。配合 4/19 RLVR Reward Hacking 揭示 verifier 易被 exploit,OMC 的 HR pipeline 在 production 部署前需要先解决"如何让评估本身可靠"的元问题。
PRDBench 84.67% +15.48pp 这条数字需要拆开读。SoTA baseline(69.19% Claude-4.5 minimal)是单 agent 模式,OMC 是完整组织化多 agent——这条对比在某种意义上是"unfair"(多 agent 团队对单 agent 当然更强)。但 OMC 的真正贡献不是"更高分",是给了一个 reproducible 的工程蓝图让任何团队都能搭出 +15 分级别的 agent 组织。$345.59 跑完 50 个 project-level 任务也是非常 actionable 的经济学指标——每个任务 ~$7,远低于人类工程师同等任务成本,把 agent 工程从 demo 推到了 SMB 商用价位档。配合 4/27 OneManCompany 的开源 release(论文承诺代码即将开源),2026 年下半年开源 agent 框架很可能会出现一波"对标 OMC"的产品大爆发。
ENTRY 005/009
[ 研究 · LLM · 实验 · 历史数据 · SCALING-LAW · 开源 ]
Talkie:13B 仅用 1930 年前文本训练的 vintage 语言模型
(Talkie: A 13B vintage language model from 1930)
Nick Levine、David Duvenaud、Alec Radford(GPT 早期作者)联合 Anthropic 与 Coefficient Giving 4/28 公开 Talkie:13B 参数 transformer,仅用 260B pre-1931 英文 tokens 训练——历史书 / 19-20 世纪报纸 / 期刊 / 专利 / 法律文书 / 1930 年前科学文献。架构与同规模 FineWeb 现代孪生模型完全一致作为对照实验。Post-training 用 1930 年前的"结构性文本"(etiquette manuals / 烹饪书 / 字典)+ 合成任务 prompt + Claude Sonnet 4.6 作 online DPO 评判员,把 instruction-following 从 2.0 → 3.4(5 分制)。结果:标准评测全面落后现代孪生;HumanEval 等编码评测呈现"slow but steady scaling"——只能写简单的 one-line 程序但确实在改进。HN 4/28 上 553 分。
Talkie 不是产品也不是 frontier 模型,是 2026 年最值得读的 ML 实验之一——首次系统性回答"如果剥离所有 post-2000 互联网数据,LLM 还剩多少能力?"。这条问题的答案对 4/26 Scientific Theory of Deep Learning manifesto 提出的"learning mechanics"研究方向是非常具体的实证输入。Manifesto 的核心主张是 deep learning 应该过渡到可预测的科学,但当前所有 frontier model 的 capability 来源都被"网络爬虫数据"这条混合源遮蔽——你无法分清模型的 reasoning 能力到底来自 Reddit 讨论、StackOverflow 代码示例、Wikipedia 概念解释还是 GitHub 完整 repo。Talkie 把"互联网数据"完全掐掉,让你看到 1930 年人类知识的 distillation 直接训练出的 LLM 长什么样。
作者团队的权重决定这条实验的真实分量。Nick Levine 与 David Duvenaud 是 ML 理论与可解释性方向的资深研究者,Alec Radford 是 GPT-1 / GPT-2 / GPT-3 / Whisper 几乎所有 OpenAI 早期奠基模型的核心作者——他在 Talkie 上署名意味着这条实验有 transformer 架构最深的实操经验背书。Anthropic 提供研究支持也值得注意——Anthropic 在 2026 年并不缺 frontier model(Mythos / Opus 4.7 已是行业最强),但选择支持这种"把 LLM 拉回 1930 年代"的实验,反映 Anthropic 对"什么数据让模型变强 / 哪些能力是 emergent 哪些是 inherited" 的研究兴趣远超商业产品需求。这条实验的价值不在"训出一个能用的 1930 模型",而在严格控制变量条件下证明 scaling law 在不同数据分布上是否保持同一形态。
HumanEval 上呈现 slow but steady scaling 这条发现尤其反直觉。1930 年前没有 Python、没有现代编程语言、没有"代码"这个概念——19 世纪报纸里出现的"程序"指的是音乐会节目单。但 Talkie 在 HumanEval 上仍然展示了 scaling 趋势(参数翻倍性能提升)——意味着编程能力的某些底层组成(逻辑流程、变量命名、约束传递)来自非编程的、纯结构化文本数据。这条发现对 4/26 Scientific Theory of Deep Learning manifesto 的"capability emergence"研究方向是一个非常具体的 entry point:如果 1930 年前的逻辑文本就足以让模型涌现"写简单 Python"的能力,那么"代码能力"在 transformer 内部的表征可能与"逻辑表达"高度共享,未来 mech interp 应该重点研究"逻辑结构表征"而非单独的"代码电路"。
工程含义同样有趣。对低资源语言或者数据稀缺领域的 LLM 训练,Talkie 的存在证明 260B tokens 高质量结构化文本可以支撑 13B 模型的 fundamental 能力——这条数据规模对小语种、专业域(医学 / 法律 / 工程古籍)的 frontier 训练是直接可达的目标。例如训练一个 13B 古汉语 LLM 用宋元明清四库全书 + 历代史籍可能就够,不需要等待互联网级数据扩展。这条思路和 4/27 K-MetBench(Korean meteorology benchmark)揭示的"Korean 模型在本地任务上超过更大的全球模型"是同一根曲线——当任务足够 specialize,数据质量与领域匹配性比绝对数据规模更重要。
需要冷静读的边界:论文未公开 Talkie 的标准 benchmark 完整数字(除了 HumanEval 的定性描述),社区目前对"vintage LLM 到底差多少"没有完整 quantification。HN 553 分主要来自概念新颖性而非可复现的科学发现。配合 Anthropic 与 Coefficient Giving 这条 funding 关系,Talkie 在未来 6-12 个月可能会扩展到更多 vintage cohort(1850 / 1900 / 1950)做 longitudinal 对比——给 ML 社区一系列"互联网未污染"的对照基线。这条实验的最终目标可能不是"训 vintage LLM"而是给 frontier model 的能力归因提供一系列 baseline 用作 ablation 参照——4/27 OpenAI 退役 SWE-bench Verified 时承认"无法过滤 GitHub 训练数据污染",Talkie 给出的对照路径是"如果污染源完全被掐掉,capability 会下降多少",这是判断当前 frontier model 真实推理能力 vs 记忆能力的下界估计工具。
ENTRY 006/009
[ 论文 · 视频生成 · 世界模型 · RL · 3D一致性 ]
World-R1:用强化学习对齐文生视频的 3D 几何一致性
(World-R1: Reinforcing 3D Constraints for Text-to-Video Generation)
Weijie Wang、Xiaoxuan He、Youping Gu、Yifan Yang 等 12 人 4/27 提交(浙江大学 + Microsoft Research 联合)。核心命题:当前文生视频模型几乎只优化视觉质量与时间一致性,但忽视 3D 几何一致性——视频中物体可能从不同视角看上去不一致 / 镜头穿越场景时几何关系不闭合。提出 World-R1:用 RL 把 3D 几何约束作为优化目标融入视频基础模型;构建带 3D ground truth 的训练数据集,用 vision-language model 反馈做 reward signal;不修改基础架构,只在 RL 阶段引入 3D-aware reward。结果:在生成视频的几何一致性上显著超越 baseline,重建出的 3D 场景与原始视频帧对应良好,首次把 RLHF 范式系统应用到 video world model 的几何对齐。
World-R1 是 4/24-29 这一波"video world model 几何一致性"主题持续深化的关键节点。回看时间线:4/16 腾讯 HY-World 2.0 用 3DGS 资产化、4/18 NVIDIA Lyra 2.0 用 Gaussian Splatting、4/23 WorldMark 揭示"视觉质量 ≠ 世界一致性"、4/23 Vista4D 用 4D 点云锚定视频重拍、4/28 World-R1 把"几何一致性"从架构问题转化为 RL 训练目标问题。这条演进轨迹反映社区对 world model 失效模式的认识在快速深化——单靠架构改进(添加 3DGS / 点云 / depth head)无法穷尽几何一致性问题,必须用 RL 反馈让模型在训练阶段就学会"几何上自洽"。
用 VLM 作 reward signal 是 World-R1 的核心 trick。传统视频生成用 reward 几乎都是 LPIPS / FVD / 人类偏好评分这类视觉表面指标。3D 几何一致性是更抽象的概念——同一物体在不同视角下尺寸 / 朝向是否合理、相机轨迹与场景结构是否对齐——需要"理解 3D"才能评判。直接用一个独立的 3D reconstruction 模型作 reward 计算成本高且 noisy;World-R1 用 VLM(理解视觉 + 文本)作为 judge 评估"这段视频在几何上是否自洽",把 3D reasoning 隐含在 VLM 的视觉理解里。这条思路和 4/19 RLVR Reward Hacking 论文揭示的"verifier 易被 exploit"形成有意思的对照——VLM-as-judge 在视频生成上的可靠性比在文本推理上要高,因为视觉的几何不一致比文本的 reward hack 容易被多模态模型 catch。
不修改基础架构 + 仅 RL 阶段引入 3D-aware reward 这条设计选择是工程上 actionable 的关键。竞品(HY-World 2.0 / Lyra 2.0 / Vista4D)都需要在 base architecture 添加 3D 模块——3DGS 头 / 4D 点云 anchor / 显式 depth 估计——这意味着重新预训练大型基础模型,工程门槛极高。World-R1 的"只动 RL"路径让任何已有视频生成基础模型(YUME / HY-World / Genie 3 / Vista4D)都能在 fine-tune 阶段获得几何一致性改进,而不需要重训。这条 modular 性对开源社区尤其友好——一个团队训出 World-R1 风格的 RL pipeline 后,整个社区可以把它嫁接到各家自己的视频 base model 上。这条思路和 4/24 GPT-5.5 用 OpenAI 内部 harness 替证 Ramsey 数定理、4/27 Erdős Problem 1196 用 GPT-5.4 Pro 解决——共同反映"frontier model 能力提升越来越多来自 post-training pipeline 而非 base model 重训"。
需要冷静读的盲点:论文未公开具体的 reward function 实现细节、RL 算法选择(GRPO / PPO / DPO)、训练成本。HF 90 投票主要来自概念吸引力——"用 RL 把 3D 一致性内化到视频生成"是直观可懂的想法,但实操上 RL 训练视频生成模型的 reward 稀疏性、生成长度控制、灾难性遗忘等问题非常棘手,论文是否在这些工程细节上给出可复现配方需要等代码 release 后社区独立验证。如果 World-R1 的 RL pipeline 在未来 2-3 个月被独立复现,这条范式将成为 video foundation model 的新默认 post-training 步骤——类似 LLM 上的 RLHF。
ENTRY 007/009
[ 论文 · 长上下文 · 混合架构 · UPCYCLING · 推理优化 ]
HyLo:把预训练 transformer "升级"成混合架构 + 32× 上下文扩展
(Long-Context Aware Upcycling: HyLo for Hybrid LLM Scaling)
Parsa Ashrafi Fashi、Utkarsh Saxena、Mehdi Rezagholizadeh 4/27 提交。提出 HyLo (Hybrid Long-context upcycling):把已经预训练好的标准 Transformer 不重训 转化为含高效注意力组件(线性 / 滑窗 / 状态空间)的混合架构。核心步骤:分析原模型每层的 attention pattern 把"长程"层标识,用线性 attention / SSM / SWA 替换部分层并做 short adaptation。结果:可用上下文扩展 32× 同时 KV-cache 内存降 90%,精度损失 <5%。
HyLo 是 4/24 DeepSeek V4(CSA + HCA 混合)+ 4/24 SpikingBrain2.0(DSSA 跨层混合 SWA + SSE)+ 4/22 MiMo-V2.5-Pro(SWA:GA 6:1)这一波"混合注意力"架构浪潮的工程视角补完——前三者是 from-scratch 训练混合架构,HyLo 是把现有模型 upcycle 到混合架构。这条差异在工程经济学上意义重大:from-scratch 训练 1T 参数混合模型需要数千万美元算力,HyLo 让任何已部署 LLM(Llama 4 / Qwen 3 / Mistral / 自训模型)通过短期 adaptation 获得混合架构红利,单 step 成本在百万美元量级。
32× 上下文扩展 + 90% KV-cache 缩减 这条数字组合对企业 LLM 部署是真实的成本拯救。当前生产环境最大的 hidden 成本之一是长上下文场景下的 KV cache 显存——一个 70B 模型在 128k 上下文下 KV cache 可能占 40GB+ 显存,单卡服务 2-3 个并发 session 就占满。HyLo 90% KV 削减让同样硬件能服务 10-30× 更多并发。这条工程价值与 4/19 Stash + Anthropic Memory(持久化记忆替代长上下文)、4/24 V4 1M context 27% FLOPs 路径形成"长上下文经济学"的三条独立优化轴:(a) 通过外部记忆减少 prompt 长度(Stash / Anthropic Memory)、(b) 通过混合稀疏 attention 降推理 FLOPs(V4 / MiMo / SpikingBrain)、(c) 通过 upcycling 让现有模型获得混合架构(HyLo)。三条策略在企业部署里可叠加使用。
需要冷静读的边界:HyLo 论文 5% 精度损失"在某些任务"——具体损失分布、长程 retrieval 能力变化、edge case 失败模式都需要进一步验证。但即便有 5% 精度折扣,对 80% 应用场景(不需要 frontier 推理、需要长上下文成本可控)这条 upcycling 路径都是直接划算的。
ENTRY 008/009
[ ANTHROPIC · CLAUDE · POSTMORTEM · CODE-REVIEW · 🔄进展更新 ]
🔄 Anthropic 把 Opus 4.7 加入 Code Review 流程,回测发现自家 Postmortem 三 bug 中的关键漏判
(Anthropic Code Review now uses Opus 4.7 + additional repository context)
4/28 Anthropic 工程团队在 4/23 Claude Code Postmortem 基础上公开补充:回测验证 Code Review 工具升级到 Opus 4.7 + 添加更多 repository 作为上下文后,Opus 4.7 能 catch 当时 4/23 Postmortem 三 bug 中的关键 caching bug,而 Opus 4.6(事故时使用的版本)做不到。整改措施已 land:所有 Anthropic 内部 Code Review 流程默认接入 Opus 4.7 + 引入"additional repositories as context for code reviews"功能。
这条 follow-up 在表面上是"工具升级"小新闻,但配合 4/26 主条目"three-bug postmortem with evals 漏检"读,等于公开承认 4 月初部署的 Code Review 工具本身能力不够——Opus 4.6 在事故发生当时即便看到代码也无法 catch caching bug,必须升到 Opus 4.7 + 更多 context 才能。这条信号对正在自建 LLM-driven code review 系统的团队是直接警告:code review 工具的能力天花板会直接决定能 catch 什么样的 bug,工具用旧 frontier model + 局部 context 会让"自动 review 防止回归"这条假设破产。
"additional repositories as context for code reviews" 这条新功能本身值得标记。当前主流 LLM code review 工具(GitHub Copilot Code Review / Cursor Review / Greptile)都默认只看 PR 修改的文件 ± 直接 import 的少数文件。但真实复杂 bug(4/23 Postmortem 中的 caching bug 就是这样)往往需要看 caching 系统在多个 repo 之间的协议——单 PR 视野不够。Anthropic 把 Code Review 接入"more repositories as context"等于把这条工具从"PR diff reviewer"升级为"cross-repo invariant checker"。这条架构升级和 4/24 Anthropic Workspace Agents 的 cross-team shared context 是同一条思路:LLM 工具的 context window 必须能跨组织 / 跨 repo 拉取,才能在企业级 codebase 上 catch 跨边界 bug。
需要冷静读的隐性信号:4/28 Anthropic 选择把这条改动作为 4/23 Postmortem 的延展而不是独立 release notes,反映团队对自家 4 月部署 pipeline 的可信度还在恢复期——每条新工具改动都被有意识地 frame 为"对那次事故的回应",是软件工程意义上的"trust rebuilding"动作。这条策略是否能让用户重建信任要看接下来 4-8 周是否有新事故。
ENTRY 009/009
[ 开源 · VLLM · 推理引擎 · CUDA · GRPC ]
vLLM v0.20.0:CUDA 13.0 默认 + torch 2.11 + gRPC serving
(vLLM v0.20.0 Release)
4/28 vLLM 主版本发布。重点:(1) CUDA 13.0 成为 PyPI 默认 wheel + vllm-openai:v0.20.0 镜像,CUDA 12.x 仍可用但要主动选择;(2) torch 2.11.0 全面——XPU 同步迁出 torch 2.10 pin,是 breaking change;(3) Python 3.14 加入支持矩阵;(4) gRPC serving 新增 --grpc flag,让 vLLM 在 HTTP/REST 之上同时支持高性能 RPC 接入,对 inter-service 微服务架构友好;(5) 总计 445 commits / 213 contributors(61 个新贡献者)。
vLLM v0.20.0 是 2026 年春天 LLM 推理基础设施"硬件 + 软件栈"全面刷新的最后一块拼图。回顾整月:4/24 NVIDIA × OpenAI 35× token 成本、4/24 Google TPU v8 训推分离、4/24 DeepSeek V4 1M 上下文、4/25 SGLang Day 0 V4 支持、4/28 vLLM v0.20.0 CUDA 13.0 + torch 2.11 + gRPC——每条都把推理栈往"更快 / 更省 / 更分布式"的方向推一步。CUDA 13.0 / torch 2.11 / Python 3.14 三者升级集中在同一版本反映 vLLM 社区已经把"跟住最新 NVIDIA driver + PyTorch 主版本"作为半年节奏。
gRPC serving 加入是 vLLM 商用化的明显信号。HTTP/REST 是 dev-friendly 但跨服务调用延迟(每次握手 + JSON 序列化 + HTTP overhead)在大 batch 推理场景下成本不可忽视。gRPC 的二进制协议 + HTTP/2 多路复用让单连接多请求成本下降 5-10×,在企业内部多个 microservice 共用 vLLM 集群的部署模式下是必须功能。这条 feature 加入意味着 vLLM 不再只针对单租户 dev experience,而是直接面向"企业级 LLM 服务网格"竞争——对标 NVIDIA Triton Inference Server / TensorRT-LLM。配合 SGLang 4/25 Day 0 V4 + Miles RL 框架,开源推理栈在 2026 年春天已经把 NVIDIA 闭源 Triton 的功能护城河填得很平。
需要冷静读的边界:XPU 从 torch 2.10 强制升到 2.11 是 breaking change——任何企业生产环境跑 Intel GPU 推理的部署都需要测试兼容性。445 commits / 213 contributors 的体量也意味着这一版本的 surface area 极大,社区在 v0.20.x 系列前几周大概率会出 patch release 修复一些边界 case。