一日三饭 | HARNESS

← /harness

════ 2026.04.29 ════

今日要点

> Xiaomi MiMo-V2.5-Pro 漏报补登：4/22 开源 1.02T MoE / 42B active / 1M context，70 层架构（1 dense + 69 MoE）+ 384 routed experts / 8 active，SWA(128 窗口):GA 比 6:1 + 3 层 MTP，27T tokens FP8(E4M3) 训练；Artificial Analysis Intelligence Index 54 分追平 Kimi K2.6 排名第一开源，ClawEval 63.8 跑完只需 ~70K tokens（比 Opus 4.6 / Gemini 3.1 Pro / GPT-5.4 少 40-60%），MIT，$1/$3 per 1M。AAII 全套评测 $462 vs K2.6 $948。
> Tuna-2: 像素 embedding 替代视觉编码器 (HF 80↑)：Meta AI + 港大 + Waterloo 4/27 提交，单一 transformer 直接吃 patch embedding 不再走 VAE / SigLIP / 表征编码器；7B 规模在 native UMM 全面 SoTA，fine-grained 视觉感知超越所有 latent-space 统一模型——首次把"encoder-free 多模态"在像素扩散匹配下推到生产可比规模。
> ClawMark: 多轮多日 coworker agent 基准 (HF 83↑)：100 任务 × 13 专业场景 × 5 个 stateful 沙箱服务（filesystem / 邮件 / 日历 / 知识库 / 表格）+ 1,537 个确定性 Python 检查器；最强模型加权 75.8 但严格任务通过率仅 20%，且首次外源环境更新后性能立刻断崖——证伪 4/26 Anthropic Project Deal 之后行业对长程 agent 的乐观叙事。
> OneManCompany (OMC): 把多 agent 编成"AI 公司" (HF 80↑)：华为诺亚方舟 + UCL，提出 Talent-Container 架构（agent 身份与运行时解耦）+ Explore-Execute-Review (E²R) 树搜索 + 6 个类型化组织接口 + 9-state FSM 形式化保证；PRDBench 84.67% 领先 SoTA 15.48 个点，跑完 50 个 project-level 任务仅 $345.59。
> Talkie: 13B "1930 vintage" 历史语言模型 (HN 553↑)：Nick Levine + David Duvenaud + Alec Radford（GPT 早期作者）联合 Anthropic 训练 13B 模型仅用 260B pre-1931 英文 tokens——历史书 / 报纸 / 期刊 / 专利 / 法律文书；与同架构 FineWeb 现代孪生模型对照实验，HumanEval 上呈现稳定但缓慢的 scaling 趋势。"被现代 web 数据污染前的 LLM 长什么样"的首次 frontier 级实证。

详细内容

ENTRY 001/009

[ 开源 · MIMO · XIAOMI · MOE · 1M上下文 · FP8 · MTP ]

Xiaomi MiMo-V2.5-Pro：1.02T MoE / 1M 上下文 / 漏报补登

(Xiaomi Releases MiMo-V2.5-Pro: Frontier Open Model with 40-60% Lower Token Cost)

→ HF MiMo-V2.5-Pro · → HF MiMo-V2.5 · → VentureBeat · → MarkTechPost · → Artificial Analysis

4/22 Xiaomi MiMo 团队（负责人罗福莉，前 DeepSeek R1 / V 系列核心）开源 V2.5 双 SKU。V2.5-Pro：1.02T 总参 / 42B active，70 层（1 dense + 69 MoE）、384 个 routed experts / token 选 8、128 attention heads + 8 KV heads（GQA）。Hybrid Attention 把 SWA(滑窗 128)与 GA 按 6:1 交替（10 层 GA + 60 层 SWA），KV-cache 缩小 ~7×。3 层轻量 MTP（Multi-Token Prediction）模块推理 3× 加速。27T tokens FP8(E4M3) 混合精度训练，原生 32k 序列长度后用 long-context upcycling 扩到 1M。三阶段后训练：SFT → 各域独立 RL teacher → Multi-Teacher On-Policy Distillation (MOPD) 学生模型从多个专家 teacher 在线 RL 蒸馏。MIT 许可。基准：MMLU 89.4、GSM8K 99.6、MATH 86.2、AIME 24&25 37.3、HumanEval+ 75.6、SWE-Bench Pro 57.2、Claw-Eval 63.8（70K tokens/trajectory，比 Opus 4.6 / Gemini 3.1 Pro / GPT-5.4 节省 40-60% tokens）、τ³-Bench 72.9、Video-MME 87.7、CharXiv RQ 81.0、HLE 34（+6 vs V2 Pro）、IFBench 80（+11）。Artificial Analysis Intelligence Index 54 与 Kimi K2.6 并列开源第一，超过 DeepSeek V4 Pro 的 1554、GLM-5.1 1535、MiniMax-M2.7 1514。GraphWalks 1M 上下文 BFS 0.37 / Parents 0.62（V2 Pro 1M 直接坍塌到 0.00）。API 定价 $1.00 / $3.00 per 1M tokens，AAII 全套评测 $462 vs Kimi K2.6 $948 vs GLM-5.1 $544。第一性能展示：4.3 小时跑 672 工具调用从零写完 SysY → RISC-V 编译器，hidden test 满分 233/233；11.5 小时 1,868 工具调用产出 8,192 行视频编辑器桌面应用。OpenCode Go / OpenClaw / KiloCode / Blackbox / Cline 全部官方集成，OpenRouter xiaomi/mimo-v2.5-pro 上线。

MiMo-V2.5-Pro 是过去一周 AI 简报系列里最显眼的漏报，也是 2026 年春天开源 frontier 模型竞赛中 DeepSeek V4 / Kimi K2.6 之外被严重低估的第三极。这条漏报本身的成因有戏剧性——4/22 发布日期正好夹在 4/19（GPT-5.5 / Kimi K2.6 / Qwen3.6-27B / TPU v8 大爆发的前一天）和 4/24（V4 上市当日）之间，整周新闻流被这两条更显赫的事件吸走，MiMo 在中文 AI 媒体外几乎没有进入主流叙事；直到 4/22-29 这一周 AAII 评测把 MiMo 与 K2.6 并列开源第一并量化"完成同样评测套件成本仅 K2.6 一半"，社区才开始严肃看这条模型。

架构上 MiMo-V2.5-Pro 与 DeepSeek V4 走出两条平行但不同的设计路径。V4 用 CSA（Compressed Sparse Attention）+ HCA（Heavily Compressed Attention）+ mHC 残差稳定性的"算法压缩"路线，把单 token 推理 FLOPs 在 1M 上下文下压到 V3.2 的 27%；MiMo-V2.5-Pro 走"硬切分 + 多 token 并行"的工程压缩路线——SWA(128):GA = 6:1 把 60 层做成纯滑窗（O(n) 复杂度）只在每 7 层留一层 GA 处理跨段依赖、3 层 MTP 让 forward 一次出 3 个 token 把吞吐拉到 3×。两条路径各自反映对"long context 真正瓶颈"的不同判断：V4 团队认为是 KV cache 内存（所以做激进压缩），MiMo 团队认为是 forward latency（所以让滑窗主导 + MTP 并行）。从 GraphWalks 1M 数据看 MiMo 在 retrieval 上更稳（0.37 BFS vs V4 在长上下文 retrieval 上的相对弱势），但在数学推理（HLE 34 < V4 37.7、AIME 24&25 37.3 远低于 V4）上明显落后——选型不再是"哪个开源更强"，而是"你的瓶颈在长上下文 retrieval 还是深度推理"。

MOPD（Multi-Teacher On-Policy Distillation）这条训练 recipe 是 MiMo-V2.5-Pro 真正的隐性贡献。当前主流后训练范式有两大分支：(a) DeepSeek 路线——单一统一 GRPO RL 训练（V4 公开论文已证实）；(b) Kimi K2 路线——多模型路径上的 verified RL（4/26 Miles 框架公开）。MiMo 引入第三条：先在每个域独立训出 expert teacher（一个 teacher 专攻 coding、一个 teacher 专攻数学、一个 teacher 专攻 agent），再让 student model 在 on-policy RL 过程中从这些 teacher 同时蒸馏。这条思路本质是把"专家分工"从 inference 时（mixture-of-experts in MoE）下沉到训练时（mixture-of-teachers in distillation），避免单一统一 RL reward 函数无法同时 satisfy 所有域的最优解。如果这条 recipe 在 6-12 个月内被独立复现（DeepSeek V5 / Qwen 4 / GLM-6 等），它将成为继 RLHF→GRPO→Verified RL 之后的第四个 post-training 范式。

经济学视角，AAII 评测 $462 vs K2.6 $948 vs Opus 4.6 数千美元 是 enterprise procurement 部门最容易理解的数字。这条数据反映 MiMo 的真正护城河不是"分数高"而是"分数 + token 效率 + API 价格"三轴乘积。40-60% fewer tokens 配 $1/$3 per 1M 的定价等于把同样 agent 任务的端到端账单压到 Claude Opus 4.6 的 1/8 至 1/12——4/27 简报"How Do AI Agents Spend Your Money?" 论文揭示的 "Kimi-K2 / Sonnet 4.5 比 GPT-5 多 150 万+ token" 的反例在 MiMo 上反向成立。这条数字对 4/26 简报里 OpenAI 退役 SWE-bench Verified 也是补充——基准是污染了，但选型决策仍需要 quantifiable 指标，token 经济学是抗污染的硬数字。

需要冷静读的盲点：MiMo-V2.5-Pro 的训练数据细节几乎完全未公开——27T tokens 的来源、清洗、长上下文混合比、MOPD 教师模型来源都未披露。和 V4 论文（被多名研究者称为年度最佳）的开放透明形成对比。这条不对称对学术界复现是显著障碍，对 MiMo 的开源是一定折扣——你能 fine-tune、推理、私有部署，但你不能完全 audit 训练过程。配合罗福莉前 DeepSeek 背景与"Hunter Alpha 匿名内测"事件，业界对 MiMo 的真实训练规模有持续质疑（"是否复用了 DeepSeek 旧 checkpoint？"），但 4/22 发布两周后社区独立 benchmark 全部对得上模型卡声明，这条质疑暂时被压住。

ENTRY 002/009

[ 论文 · 多模态 · 统一模型 · ENCODER-FREE · 扩散 · 像素空间 ]

Tuna-2：像素 embedding 击败视觉编码器，重新定义统一多模态架构

(Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation)

→ arXiv:2604.24763 · → HF Papers

Weiming Ren、Xiaoke Huang、Shoufa Chen、Tianhong Li 等 16 人 4/27 提交（Meta AI / 港大 / Waterloo 联合）。核心命题：当前所有 native unified multimodal model（UMM）都仍依赖预训练视觉编码器（VAE / SigLIP / CLIP），造成理解 / 生成表征不对齐 + 端到端优化无法从原始像素直接做。Tuna-2 把 Tuna 系列原架构里的 VAE → 表征编码器 → patch embedding 三层逐级移除，最终只保留 patch embedding + 单 transformer 解码器 + 像素空间 flow matching head。三大核心设计：(1) 像素空间 x-prediction + v-loss flow matching（参考 JiT 路线）支持文生图与图像编辑；(2) masking-based feature learning 训练时对随机 50% 图像 patch 替换 learnable mask token，对生成做"部分观察去噪"对理解做"鲁棒性正则"；(3) 完全端到端两阶段训练——Stage 1 jointly 训 image captioning 与 T2I（550M 图文对 + 20% Nemotron 文本）、Stage 2 SFT（FineVision 13M + OmniEdit 2M），无需独立 connector alignment 阶段。基线 Qwen2.5-7B-Instruct，64 节点训练。结果：MMVet / MMMU / V* / CountBench / VisuLogic 等 9 个 VQA + 3 个 pixel-centric benchmark 全面超过 latent-space UMM（Show-o2 / Tuna / Janus-Pro / BAGEL / Mogao），GenEval 0.87 / DPG-Bench 86.54 与 BAGEL 14B（0.88）持平但仅 7B 规模；GPT-5.4 + Claude Opus 4.7 双 LLM judge 评测 quality 与 diversity 优于 Tuna-R 与 Tuna；ImgEdit 编辑能力略低于 Tuna 但显著超过 OmniGen / UniWorld / OmniGen2；ImageNet 重建质量逼近 FLUX.1[dev] 专用 VAE。

Tuna-2 的真正价值不在某个 benchmark 数字，而在它给统一多模态架构的演进路线一个明确的"清零"信号。过去三年 UMM 的设计哲学是"在已有 vision encoder 之上加 decoder 头" —— LLaVA → Show-o → Janus-Pro → BAGEL → Tuna 一脉相承。即便 4/24 LLaDA2.0-Uni 这种激进尝试也只是把 SigLIP-VQ tokenizer 换成离散语义编码器，没有真正删除编码器层。Tuna-2 第一次系统性证明："预训练编码器是必要前提"是过去三年 UMM 共同接受但从未严格验证的假设——一旦有足够的 pretraining 数据规模，单 transformer + patch embedding 在 fine-grained 视觉理解上反而胜出。

为什么 encoder-free 在 fine-grained 任务上更强？ 论文给出的解释是 SigLIP / CLIP 这类预训练编码器的 inductive bias（fixed input resolution、limited fine-grained access）在 4/26 Scientific Theory of Deep Learning 提到的"learning mechanics"语境下其实是 capability ceiling——它们在 ImageNet / WIT 时代被训练成"文本描述对齐"的有效编码器，但 V*、CountBench、VisuLogic 这种需要识别"图像中很小的物体 / 准确数数 / 空间逻辑推理"的任务上，编码器的固有压缩损失成了瓶颈。Tuna-2 用单 transformer 直接处理 raw patch，把所有 layer 都暴露给原始视觉信号，理论上让模型可以在更深层重建任意分辨率的局部表征。这条结论和 4/24 LLaDA2.0-Uni 选择"continuous 表征"路线、4/24 VoxCPM2 选择"tokenizer-free 连续"路线形成同一波认知重构——所有"对模态做预压缩"的设计在 frontier scale 上都有结构性代价。

masking-based feature learning 是 Tuna-2 工程上最 elegant 的部分。MAE（He 2022）证明 masked autoencoding 是强大的视觉自监督 pretext task，但 MAE 仅用于 representation learning，与 generation 完全脱节；MaskGIT 把 mask prediction 做成 generation pretext task 但与 understanding 互不打通。Tuna-2 用同一个 mask token + 50% probability 的 unified scheme 对 understanding 例子做 robustness 正则、对 generation 例子做 partial observation denoising——同一个 mask 操作在两类任务中扮演完全不同角色但加在同一个 forward pass 里。论文 ablation 显示这条设计对 Tuna-2 的贡献远大于对 Tuna-R（带 SigLIP 编码器的对照），因为 SigLIP 自身已经是 masked-prediction 预训练——当编码器被移除后，masking 必须由架构内部承担，masked feature learning 等于把 SigLIP 的预训练目标内化到 unified pretraining 阶段。

工程含义对正在做多模态基础模型的团队是直接的：如果你现在的栈还是 Qwen-VL / InternVL3.5 / LLaVA OneVision 这种 encoder-decoder 结构，未来 12 个月需要重新评估"是否值得迁移到 encoder-free 架构"。短期内迁移成本高（550M 图文对 + 64 节点 + 300k step pretraining 是每家都吃不下的成本），但 Tuna-2 论文指出 "Tuna-R 在前期收敛更快、Tuna-2 在 sufficient pretraining 后超过"——这条 crossover 点（在 Figure 6 中显示约 200k step）意味着小规模训练时 encoder 仍有优势，只在大 pretraining budget 下 encoder-free 才赢。这条 scaling 拐点对开源社区不太友好（资源受限难以达到 crossover）但对 frontier 实验室是新的优势项目——OpenAI / Anthropic / Google 都有可能在 2026 下半年的下一代多模态 base model 中悄悄采用 encoder-free 设计。

ENTRY 003/009

[ 论文 · BENCHMARK · AGENT · COWORKER · 多模态 · 多天 ]

ClawMark：100 任务多轮多日多模态 coworker agent 基准

(ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents)

→ arXiv:2604.23781 · → HF Papers

47 作者联署 4/27 提交。核心命题：现有 agent benchmark 都跑在单 episode 静态环境里且偏文本中心——SWE-bench Pro 只测代码、Terminal-Bench 只测 shell、Berkeley RDI 只到 50 步——但真实 agent 是 "多天工作的 coworker"：邮件持续到、日历会议变更、知识库被人类更新、证据散落在图像 / 扫描 PDF / 音频 / 视频 / 表格里。提出 ClawMark：(1) 100 任务 × 13 个专业场景（HR / 财务 / 法务 / 行政 / 产品 / 客服等）；(2) 5 个 stateful 沙箱服务（filesystem、email、calendar、knowledge base、spreadsheet）轮次间状态独立演化；(3) 1,537 个 deterministic Python checker 在执行后服务状态上做 rule-based 验证，评分流程不调用任何 LLM-as-judge。基准化测试 7 个 frontier agent 系统：最强模型加权得分 75.8 但严格 Task Success 仅 20.0%；turn-level 分析显示首次外源环境更新（emails arrive / calendar shifts）后性能立刻断崖——适应不断变化的 state 是关键开放挑战。配套 evaluation harness 与 construction pipeline 全开源。

ClawMark 是 4/26-29 这一波 agent benchmark 改革浪潮中最具原创性的工程贡献，它把 4/26 OpenAI 退役 SWE-bench Verified 时承诺的"benchmark 必须包含真实工作流"这条宣言第一次具体化。47 个作者跨多个机构合作设计这种规模的基准在 ML 社区是非典型——更典型的是单一团队（DeepMind / OpenAI / Anthropic）发布 in-house benchmark。多机构联合签署反映社区共识：单 episode 静态 benchmark 的时代彻底结束，未来 evaluation 必须模拟 agent 与"会变化的世界"持续交互。

1,537 个 deterministic Python checker + 零 LLM-as-judge 是 ClawMark 真正的方法论突破。4/19 RLVR Reward Hacking 论文已经证明 LLM-as-judge 容易被 verifier exploit，4/26 Project Deal 进一步证明 agent quality gap 在 LLM judge 下不可感知。ClawMark 的设计选择是回归到程序化 rule-based 验证——例如"agent 是否在用户休假后正确把日历会议改期到 OOO 之后"这种问题被分解成具体的 spreadsheet cell + calendar entry + email send 状态检查，每条都用 assert 写死。这条选择的代价是构建成本极高（1,537 个 checker 跨 100 任务平均每任务 15 个），但好处是评分完全可复现、抗污染、抗 reward hacking。这条权衡和 4/24 LamBench 用 lambda 归约比对完整 normal form 的设计哲学完全同构——前沿 benchmark 的 ground truth 必须是可执行验证而非 LLM 评判。

最强模型加权 75.8 / 严格 Task Success 仅 20.0% 这条数字组合揭示一个 hidden 但非常重要的事实：当前 frontier agent 在 ClawMark 上能跑出"看起来差不多对"的部分进度，但完整端到端完成任务几乎做不到。加权得分把每条 checker 当成独立单位测，partial credit 累积；严格 Task Success 要求所有 checker 全部 pass。20% 完整通过率意味着 80% 任务里 agent 走到一半失败或走偏——这条与 4/13 Berkeley RDI 的"50 步以内可被利用漏洞"、4/19 RLVR Reward Hacking 的"verifier 被 exploit"、4/26 Replit DROP TABLE 事故是同一根问题的不同切片：长程 agent 的稳健性曲线在 100+ turn / 多天周期上仍未通过临界点。

首次外源环境更新性能立刻断崖这条 turn-level 发现是 ClawMark 最有方法论价值的副产物。多数 agent 框架的设计假设是"环境是 agent 的工具"——agent 主动调用、工具被动响应。但在真实工作流里环境会主动变化：在 agent 还在思考下一步时，新邮件到了、用户更新了知识库、日历会议被推迟。当前 agent 训练数据中这种"主动外源更新"几乎完全缺失（rollout 都是 agent 主动驱动的轨迹），所以模型在外源更新发生时缺乏适配机制——往往直接执行原计划而不重新评估。这条诊断对 agent 训练数据采集有直接指引：未来 6-12 个月需要专门构造"外源更新感知"的训练数据——每条 trajectory 必须随机注入环境变化让 agent 学会重新规划。这条思路和 4/19 Cloudflare Agent Memory 的 Durable Object 设计、4/25 Stash 的 Episodes append-only + Contradictions 检测是同一条认知线：agent 不仅需要记住"我做过什么"，还需要感知"世界在我做的同时变了什么"。

47 作者的社会学也值得标记。ClawMark 的作者列表覆盖了至少 6 家中国研究机构 + 多家美国大学，是中美 ML 协作在 agent benchmark 领域少见的大规模联合署名。这条侧面信号对 frontier 评测研究的国际化趋势有指向——单一国家 / 单一机构很难独立设计出能涵盖 13 个专业场景的多样性 benchmark，多机构联合是当前 agent eval 难度溢出单实验室能力的现实结果。配合 4/26 退役 SWE-bench Verified、4/27 Erdős Problem 1196、4/27 Agentic World Modeling 168 页综述，2026 年春天的 ML 评测研究已经进入"机构联合 + 程序化验证 + 长程动态环境"三位一体的新基线。

ENTRY 004/009

[ 论文 · AGENT · 多AGENT · 组织 · 形式化 · 开源 ]

OneManCompany (OMC)：把多 agent 编成一家"AI 公司"

(From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company)

→ arXiv:2604.22446 · → HF Papers

Zhengxu Yu、Yu Fu、Zhiyuan He 等 8 人提交。核心命题："当前多 agent 系统受限于固定团队结构与紧耦合协调"——CrewAI / AutoGen / MetaGPT 等都把 agent 锁在单一 runtime + 项目开始前定死的角色清单里。OMC 提出"AI 组织"层级抽象：(1) Talent-Container 架构——Employee = Talent + Container，Talent 包含 role / prompts / skills / tools / 工作准则，Container 是执行环境（Claude Code / LangGraph / 脚本）；同一个 Talent 可在异构 Container 跨平台运行。6 个类型化组织接口：Execution / Task / Event / Storage / Context / Lifecycle。(2) Digital Talent Market——社区贡献 + AI 推荐 + 内部晋升的 agent 招募池，执行过程中按需补缺。(3) Explore-Execute-Review (E²R) 树搜索——Policy π 选分解策略 → DAG 依赖执行 → Supervisor 评估 + 自底向上完成信号传播；类比 MCTS 但用真实执行 + 显式 supervisor 评估。(4) 9 状态 FSM + 形式化保证：DAG 不变量 / 互斥执行 / Review 终止性 / 级联完整性 / 依赖完整性 / 崩溃恢复正确性。(5) HR Pipeline——周期性 review / Performance Improvement Plan / 自动 offboarding。结果：PRDBench 84.67%（+15.48pp 超 SoTA），跑完 50 个 project-level 任务仅 $345.59 / $6.91 per task。GPT-5.2 minimal 62.49%、Claude-4.5 minimal 69.19%、Claude Code commercial 56.65%、DeepSeek-V3.2 minimal 40.11%。

OMC 是 2026 年 4 月 agent 工程范式从"工具集成"向"组织设计"跃迁的最系统化论文。回顾 4 月所有 agent 框架进展：4/24 Kimi K2.6 swarm（300 sub-agent 异构协作）、4/25 Stash（多阶段记忆 pipeline）、4/26 OpenClaw forked-context subagents、4/26 Anthropic Memory for Managed Agents、4/27 EvanFlow TDD harness、4/27 wuphf git markdown wiki——每个都解决"agent 工程"的某个特定子问题。OMC 是第一个尝试给整个 agent 团队画"组织架构图"的工作：Talent / Container / Talent Market / E²R / FSM / HR 的术语不是隐喻，是真的把传统软件工程里"职位描述 + runtime / 招聘 + 晋升 / 项目管理"全套人事制度搬到 agent 系统。

Talent-Container 解耦 是 OMC 最具深度的工程抽象。当前所有主流 agent 框架的死穴是 agent identity 与 runtime 紧耦合：CrewAI agent 离不开 CrewAI 框架、AutoGen agent 离不开 AutoGen runtime、Claude Code 的 sub-agent 必须用 Claude Code CLI。这条耦合让"复用 agent"变成"复用框架"，社区无法形成跨框架的 agent 生态。OMC 把这条耦合切开——Talent 是 portable 数据结构（YAML / JSON 描述 role + prompt + skills + working principles），Container 是任意 runtime 实现 6 个类型化接口（Execution / Task / Event / Storage / Context / Lifecycle）即可承载任意 Talent。这条思路和 Kubernetes 把"应用 = 容器镜像 + 编排" 解耦的设计哲学完全同构，预示 agent 工程在 2026-2027 年会出现类似 Docker 镜像的 portable 标准。如果 OMC 的 Talent schema 能成为社区共识，多 agent 系统的 vendor lock-in 会被结构性打破。

形式化完成保证（DAG 不变量 / 互斥 / 终止性 / 级联完整性 / 依赖完整性 / 崩溃恢复）是 OMC 比所有竞品先一步进入"production-grade"的关键。当前主流多 agent 框架的稳定性主要靠 try-catch + retry，没有可证明的 termination 或 deadlock-free 保证。OMC 引入 9-state FSM + AND-Tree 语义 + circuit breaker（k_rev=3 review 上限 / T_max=3600s 任务超时 / cost budget），让 agent 团队的执行流程从"祈祷不会卡死"升级为"可证明在有限时间内 either 完成 either escalate"。这条工程化对企业部署是质变——金融、医疗、法务等监管场景过去无法接受 agent 部署的核心理由就是缺乏可证明的完成保证，OMC 给出第一个可信的基线。

HR Pipeline 内置 PIP 与自动 offboarding 这条设计选择在工程美学上很有意思但在实操上可能引发争议。Performance Improvement Plan + automated offboarding 等于让系统自己淘汰表现不达标的 Talent——某个 agent 连续多次任务失败后被系统自动从 Digital Talent Market 移除。这条机制让 agent 系统具备"达尔文式自我优化"能力，但也带来新的 alignment 难题：评判 Talent 表现的标准本身可能 mis-specified，导致系统淘汰掉有用但被错评的 agent。论文未深入讨论这条风险，是后续工作的明显空白。配合 4/19 RLVR Reward Hacking 揭示 verifier 易被 exploit，OMC 的 HR pipeline 在 production 部署前需要先解决"如何让评估本身可靠"的元问题。

PRDBench 84.67% +15.48pp 这条数字需要拆开读。SoTA baseline（69.19% Claude-4.5 minimal）是单 agent 模式，OMC 是完整组织化多 agent——这条对比在某种意义上是"unfair"（多 agent 团队对单 agent 当然更强）。但 OMC 的真正贡献不是"更高分"，是给了一个 reproducible 的工程蓝图让任何团队都能搭出 +15 分级别的 agent 组织。$345.59 跑完 50 个 project-level 任务也是非常 actionable 的经济学指标——每个任务 ~$7，远低于人类工程师同等任务成本，把 agent 工程从 demo 推到了 SMB 商用价位档。配合 4/27 OneManCompany 的开源 release（论文承诺代码即将开源），2026 年下半年开源 agent 框架很可能会出现一波"对标 OMC"的产品大爆发。

ENTRY 005/009

[ 研究 · LLM · 实验 · 历史数据 · SCALING-LAW · 开源 ]

Talkie：13B 仅用 1930 年前文本训练的 vintage 语言模型

(Talkie: A 13B vintage language model from 1930)

→ Talkie 项目页 · → HN

Nick Levine、David Duvenaud、Alec Radford（GPT 早期作者）联合 Anthropic 与 Coefficient Giving 4/28 公开 Talkie：13B 参数 transformer，仅用 260B pre-1931 英文 tokens 训练——历史书 / 19-20 世纪报纸 / 期刊 / 专利 / 法律文书 / 1930 年前科学文献。架构与同规模 FineWeb 现代孪生模型完全一致作为对照实验。Post-training 用 1930 年前的"结构性文本"（etiquette manuals / 烹饪书 / 字典）+ 合成任务 prompt + Claude Sonnet 4.6 作 online DPO 评判员，把 instruction-following 从 2.0 → 3.4（5 分制）。结果：标准评测全面落后现代孪生；HumanEval 等编码评测呈现"slow but steady scaling"——只能写简单的 one-line 程序但确实在改进。HN 4/28 上 553 分。

Talkie 不是产品也不是 frontier 模型，是 2026 年最值得读的 ML 实验之一——首次系统性回答"如果剥离所有 post-2000 互联网数据，LLM 还剩多少能力？"。这条问题的答案对 4/26 Scientific Theory of Deep Learning manifesto 提出的"learning mechanics"研究方向是非常具体的实证输入。Manifesto 的核心主张是 deep learning 应该过渡到可预测的科学，但当前所有 frontier model 的 capability 来源都被"网络爬虫数据"这条混合源遮蔽——你无法分清模型的 reasoning 能力到底来自 Reddit 讨论、StackOverflow 代码示例、Wikipedia 概念解释还是 GitHub 完整 repo。Talkie 把"互联网数据"完全掐掉，让你看到 1930 年人类知识的 distillation 直接训练出的 LLM 长什么样。

作者团队的权重决定这条实验的真实分量。Nick Levine 与 David Duvenaud 是 ML 理论与可解释性方向的资深研究者，Alec Radford 是 GPT-1 / GPT-2 / GPT-3 / Whisper 几乎所有 OpenAI 早期奠基模型的核心作者——他在 Talkie 上署名意味着这条实验有 transformer 架构最深的实操经验背书。Anthropic 提供研究支持也值得注意——Anthropic 在 2026 年并不缺 frontier model（Mythos / Opus 4.7 已是行业最强），但选择支持这种"把 LLM 拉回 1930 年代"的实验，反映 Anthropic 对"什么数据让模型变强 / 哪些能力是 emergent 哪些是 inherited" 的研究兴趣远超商业产品需求。这条实验的价值不在"训出一个能用的 1930 模型"，而在严格控制变量条件下证明 scaling law 在不同数据分布上是否保持同一形态。

HumanEval 上呈现 slow but steady scaling 这条发现尤其反直觉。1930 年前没有 Python、没有现代编程语言、没有"代码"这个概念——19 世纪报纸里出现的"程序"指的是音乐会节目单。但 Talkie 在 HumanEval 上仍然展示了 scaling 趋势（参数翻倍性能提升）——意味着编程能力的某些底层组成（逻辑流程、变量命名、约束传递）来自非编程的、纯结构化文本数据。这条发现对 4/26 Scientific Theory of Deep Learning manifesto 的"capability emergence"研究方向是一个非常具体的 entry point：如果 1930 年前的逻辑文本就足以让模型涌现"写简单 Python"的能力，那么"代码能力"在 transformer 内部的表征可能与"逻辑表达"高度共享，未来 mech interp 应该重点研究"逻辑结构表征"而非单独的"代码电路"。

工程含义同样有趣。对低资源语言或者数据稀缺领域的 LLM 训练，Talkie 的存在证明 260B tokens 高质量结构化文本可以支撑 13B 模型的 fundamental 能力——这条数据规模对小语种、专业域（医学 / 法律 / 工程古籍）的 frontier 训练是直接可达的目标。例如训练一个 13B 古汉语 LLM 用宋元明清四库全书 + 历代史籍可能就够，不需要等待互联网级数据扩展。这条思路和 4/27 K-MetBench（Korean meteorology benchmark）揭示的"Korean 模型在本地任务上超过更大的全球模型"是同一根曲线——当任务足够 specialize，数据质量与领域匹配性比绝对数据规模更重要。

需要冷静读的边界：论文未公开 Talkie 的标准 benchmark 完整数字（除了 HumanEval 的定性描述），社区目前对"vintage LLM 到底差多少"没有完整 quantification。HN 553 分主要来自概念新颖性而非可复现的科学发现。配合 Anthropic 与 Coefficient Giving 这条 funding 关系，Talkie 在未来 6-12 个月可能会扩展到更多 vintage cohort（1850 / 1900 / 1950）做 longitudinal 对比——给 ML 社区一系列"互联网未污染"的对照基线。这条实验的最终目标可能不是"训 vintage LLM"而是给 frontier model 的能力归因提供一系列 baseline 用作 ablation 参照——4/27 OpenAI 退役 SWE-bench Verified 时承认"无法过滤 GitHub 训练数据污染"，Talkie 给出的对照路径是"如果污染源完全被掐掉，capability 会下降多少"，这是判断当前 frontier model 真实推理能力 vs 记忆能力的下界估计工具。

ENTRY 006/009

[ 论文 · 视频生成 · 世界模型 · RL · 3D一致性 ]

World-R1：用强化学习对齐文生视频的 3D 几何一致性

(World-R1: Reinforcing 3D Constraints for Text-to-Video Generation)

→ arXiv:2604.24764 · → HF Papers

Weijie Wang、Xiaoxuan He、Youping Gu、Yifan Yang 等 12 人 4/27 提交（浙江大学 + Microsoft Research 联合）。核心命题：当前文生视频模型几乎只优化视觉质量与时间一致性，但忽视 3D 几何一致性——视频中物体可能从不同视角看上去不一致 / 镜头穿越场景时几何关系不闭合。提出 World-R1：用 RL 把 3D 几何约束作为优化目标融入视频基础模型；构建带 3D ground truth 的训练数据集，用 vision-language model 反馈做 reward signal；不修改基础架构，只在 RL 阶段引入 3D-aware reward。结果：在生成视频的几何一致性上显著超越 baseline，重建出的 3D 场景与原始视频帧对应良好，首次把 RLHF 范式系统应用到 video world model 的几何对齐。

World-R1 是 4/24-29 这一波"video world model 几何一致性"主题持续深化的关键节点。回看时间线：4/16 腾讯 HY-World 2.0 用 3DGS 资产化、4/18 NVIDIA Lyra 2.0 用 Gaussian Splatting、4/23 WorldMark 揭示"视觉质量 ≠ 世界一致性"、4/23 Vista4D 用 4D 点云锚定视频重拍、4/28 World-R1 把"几何一致性"从架构问题转化为 RL 训练目标问题。这条演进轨迹反映社区对 world model 失效模式的认识在快速深化——单靠架构改进（添加 3DGS / 点云 / depth head）无法穷尽几何一致性问题，必须用 RL 反馈让模型在训练阶段就学会"几何上自洽"。

用 VLM 作 reward signal 是 World-R1 的核心 trick。传统视频生成用 reward 几乎都是 LPIPS / FVD / 人类偏好评分这类视觉表面指标。3D 几何一致性是更抽象的概念——同一物体在不同视角下尺寸 / 朝向是否合理、相机轨迹与场景结构是否对齐——需要"理解 3D"才能评判。直接用一个独立的 3D reconstruction 模型作 reward 计算成本高且 noisy；World-R1 用 VLM（理解视觉 + 文本）作为 judge 评估"这段视频在几何上是否自洽"，把 3D reasoning 隐含在 VLM 的视觉理解里。这条思路和 4/19 RLVR Reward Hacking 论文揭示的"verifier 易被 exploit"形成有意思的对照——VLM-as-judge 在视频生成上的可靠性比在文本推理上要高，因为视觉的几何不一致比文本的 reward hack 容易被多模态模型 catch。

不修改基础架构 + 仅 RL 阶段引入 3D-aware reward 这条设计选择是工程上 actionable 的关键。竞品（HY-World 2.0 / Lyra 2.0 / Vista4D）都需要在 base architecture 添加 3D 模块——3DGS 头 / 4D 点云 anchor / 显式 depth 估计——这意味着重新预训练大型基础模型，工程门槛极高。World-R1 的"只动 RL"路径让任何已有视频生成基础模型（YUME / HY-World / Genie 3 / Vista4D）都能在 fine-tune 阶段获得几何一致性改进，而不需要重训。这条 modular 性对开源社区尤其友好——一个团队训出 World-R1 风格的 RL pipeline 后，整个社区可以把它嫁接到各家自己的视频 base model 上。这条思路和 4/24 GPT-5.5 用 OpenAI 内部 harness 替证 Ramsey 数定理、4/27 Erdős Problem 1196 用 GPT-5.4 Pro 解决——共同反映"frontier model 能力提升越来越多来自 post-training pipeline 而非 base model 重训"。

需要冷静读的盲点：论文未公开具体的 reward function 实现细节、RL 算法选择（GRPO / PPO / DPO）、训练成本。HF 90 投票主要来自概念吸引力——"用 RL 把 3D 一致性内化到视频生成"是直观可懂的想法，但实操上 RL 训练视频生成模型的 reward 稀疏性、生成长度控制、灾难性遗忘等问题非常棘手，论文是否在这些工程细节上给出可复现配方需要等代码 release 后社区独立验证。如果 World-R1 的 RL pipeline 在未来 2-3 个月被独立复现，这条范式将成为 video foundation model 的新默认 post-training 步骤——类似 LLM 上的 RLHF。

ENTRY 007/009

[ 论文 · 长上下文 · 混合架构 · UPCYCLING · 推理优化 ]

HyLo：把预训练 transformer "升级"成混合架构 + 32× 上下文扩展

(Long-Context Aware Upcycling: HyLo for Hybrid LLM Scaling)

→ arXiv:2604.24715

Parsa Ashrafi Fashi、Utkarsh Saxena、Mehdi Rezagholizadeh 4/27 提交。提出 HyLo (Hybrid Long-context upcycling)：把已经预训练好的标准 Transformer 不重训转化为含高效注意力组件（线性 / 滑窗 / 状态空间）的混合架构。核心步骤：分析原模型每层的 attention pattern 把"长程"层标识，用线性 attention / SSM / SWA 替换部分层并做 short adaptation。结果：可用上下文扩展 32× 同时 KV-cache 内存降 90%，精度损失 <5%。

HyLo 是 4/24 DeepSeek V4（CSA + HCA 混合）+ 4/24 SpikingBrain2.0（DSSA 跨层混合 SWA + SSE）+ 4/22 MiMo-V2.5-Pro（SWA:GA 6:1）这一波"混合注意力"架构浪潮的工程视角补完——前三者是 from-scratch 训练混合架构，HyLo 是把现有模型 upcycle 到混合架构。这条差异在工程经济学上意义重大：from-scratch 训练 1T 参数混合模型需要数千万美元算力，HyLo 让任何已部署 LLM（Llama 4 / Qwen 3 / Mistral / 自训模型）通过短期 adaptation 获得混合架构红利，单 step 成本在百万美元量级。

32× 上下文扩展 + 90% KV-cache 缩减 这条数字组合对企业 LLM 部署是真实的成本拯救。当前生产环境最大的 hidden 成本之一是长上下文场景下的 KV cache 显存——一个 70B 模型在 128k 上下文下 KV cache 可能占 40GB+ 显存，单卡服务 2-3 个并发 session 就占满。HyLo 90% KV 削减让同样硬件能服务 10-30× 更多并发。这条工程价值与 4/19 Stash + Anthropic Memory（持久化记忆替代长上下文）、4/24 V4 1M context 27% FLOPs 路径形成"长上下文经济学"的三条独立优化轴：(a) 通过外部记忆减少 prompt 长度（Stash / Anthropic Memory）、(b) 通过混合稀疏 attention 降推理 FLOPs（V4 / MiMo / SpikingBrain）、(c) 通过 upcycling 让现有模型获得混合架构（HyLo）。三条策略在企业部署里可叠加使用。

需要冷静读的边界：HyLo 论文 5% 精度损失"在某些任务"——具体损失分布、长程 retrieval 能力变化、edge case 失败模式都需要进一步验证。但即便有 5% 精度折扣，对 80% 应用场景（不需要 frontier 推理、需要长上下文成本可控）这条 upcycling 路径都是直接划算的。

ENTRY 008/009

[ ANTHROPIC · CLAUDE · POSTMORTEM · CODE-REVIEW · 🔄进展更新 ]

🔄 Anthropic 把 Opus 4.7 加入 Code Review 流程，回测发现自家 Postmortem 三 bug 中的关键漏判

(Anthropic Code Review now uses Opus 4.7 + additional repository context)

→ Anthropic Engineering

4/28 Anthropic 工程团队在 4/23 Claude Code Postmortem 基础上公开补充：回测验证 Code Review 工具升级到 Opus 4.7 + 添加更多 repository 作为上下文后，Opus 4.7 能 catch 当时 4/23 Postmortem 三 bug 中的关键 caching bug，而 Opus 4.6（事故时使用的版本）做不到。整改措施已 land：所有 Anthropic 内部 Code Review 流程默认接入 Opus 4.7 + 引入"additional repositories as context for code reviews"功能。

这条 follow-up 在表面上是"工具升级"小新闻，但配合 4/26 主条目"three-bug postmortem with evals 漏检"读，等于公开承认 4 月初部署的 Code Review 工具本身能力不够——Opus 4.6 在事故发生当时即便看到代码也无法 catch caching bug，必须升到 Opus 4.7 + 更多 context 才能。这条信号对正在自建 LLM-driven code review 系统的团队是直接警告：code review 工具的能力天花板会直接决定能 catch 什么样的 bug，工具用旧 frontier model + 局部 context 会让"自动 review 防止回归"这条假设破产。

"additional repositories as context for code reviews" 这条新功能本身值得标记。当前主流 LLM code review 工具（GitHub Copilot Code Review / Cursor Review / Greptile）都默认只看 PR 修改的文件 ± 直接 import 的少数文件。但真实复杂 bug（4/23 Postmortem 中的 caching bug 就是这样）往往需要看 caching 系统在多个 repo 之间的协议——单 PR 视野不够。Anthropic 把 Code Review 接入"more repositories as context"等于把这条工具从"PR diff reviewer"升级为"cross-repo invariant checker"。这条架构升级和 4/24 Anthropic Workspace Agents 的 cross-team shared context 是同一条思路：LLM 工具的 context window 必须能跨组织 / 跨 repo 拉取，才能在企业级 codebase 上 catch 跨边界 bug。

需要冷静读的隐性信号：4/28 Anthropic 选择把这条改动作为 4/23 Postmortem 的延展而不是独立 release notes，反映团队对自家 4 月部署 pipeline 的可信度还在恢复期——每条新工具改动都被有意识地 frame 为"对那次事故的回应"，是软件工程意义上的"trust rebuilding"动作。这条策略是否能让用户重建信任要看接下来 4-8 周是否有新事故。

ENTRY 009/009

[ 开源 · VLLM · 推理引擎 · CUDA · GRPC ]

vLLM v0.20.0：CUDA 13.0 默认 + torch 2.11 + gRPC serving

(vLLM v0.20.0 Release)

→ vLLM v0.20.0

4/28 vLLM 主版本发布。重点：(1) CUDA 13.0 成为 PyPI 默认 wheel + vllm-openai:v0.20.0 镜像，CUDA 12.x 仍可用但要主动选择；(2) torch 2.11.0 全面——XPU 同步迁出 torch 2.10 pin，是 breaking change；(3) Python 3.14 加入支持矩阵；(4) gRPC serving 新增 --grpc flag，让 vLLM 在 HTTP/REST 之上同时支持高性能 RPC 接入，对 inter-service 微服务架构友好；(5) 总计 445 commits / 213 contributors（61 个新贡献者）。

vLLM v0.20.0 是 2026 年春天 LLM 推理基础设施"硬件 + 软件栈"全面刷新的最后一块拼图。回顾整月：4/24 NVIDIA × OpenAI 35× token 成本、4/24 Google TPU v8 训推分离、4/24 DeepSeek V4 1M 上下文、4/25 SGLang Day 0 V4 支持、4/28 vLLM v0.20.0 CUDA 13.0 + torch 2.11 + gRPC——每条都把推理栈往"更快 / 更省 / 更分布式"的方向推一步。CUDA 13.0 / torch 2.11 / Python 3.14 三者升级集中在同一版本反映 vLLM 社区已经把"跟住最新 NVIDIA driver + PyTorch 主版本"作为半年节奏。

gRPC serving 加入是 vLLM 商用化的明显信号。HTTP/REST 是 dev-friendly 但跨服务调用延迟（每次握手 + JSON 序列化 + HTTP overhead）在大 batch 推理场景下成本不可忽视。gRPC 的二进制协议 + HTTP/2 多路复用让单连接多请求成本下降 5-10×，在企业内部多个 microservice 共用 vLLM 集群的部署模式下是必须功能。这条 feature 加入意味着 vLLM 不再只针对单租户 dev experience，而是直接面向"企业级 LLM 服务网格"竞争——对标 NVIDIA Triton Inference Server / TensorRT-LLM。配合 SGLang 4/25 Day 0 V4 + Miles RL 框架，开源推理栈在 2026 年春天已经把 NVIDIA 闭源 Triton 的功能护城河填得很平。

需要冷静读的边界：XPU 从 torch 2.10 强制升到 2.11 是 breaking change——任何企业生产环境跑 Intel GPU 推理的部署都需要测试兼容性。445 commits / 213 contributors 的体量也意味着这一版本的 surface area 极大，社区在 v0.20.x 系列前几周大概率会出 patch release 修复一些边界 case。

其他值得关注

[DepthKV: Layer-Dependent KV Cache Pruning（每层敏感度自适应分配 KV 预算，超越统一稀疏化）] — arXiv:2604.24647 — arXiv:2604.24647
[The Last Human-Written Paper: Ara protocol 用 machine-executable research package 替代叙事论文，提升 agent reproducibility] — arXiv:2604.24658 — arXiv:2604.24658
[AgentWard: Lifecycle Security Architecture for Autonomous AI Agents (5 阶段 defense-in-depth)] — arXiv:2604.24657 — arXiv:2604.24657
[Persona Collapse in LLMs: 不同角色 agent 在长程交互中收敛到同质行为，提出 Coverage-Uniformity-Complexity 群体级评测框架] — arXiv:2604.24698 — arXiv:2604.24698
[Cortex-Inspired Continual Learning: 高维自组织 binary mask + 不相交梯度更新，达到近零遗忘] — arXiv:2604.24637 — arXiv:2604.24637
[Less Is More: 端侧小模型集成实战——Gemma 4E2B + Qwen3 在生产 Android app 部署的 5 类失败模式与防御策略] — arXiv:2604.24636 — arXiv:2604.24636
[Learning to Think from Multiple Thinkers: 从多 solver 的 CoT 监督学习，建立加密学难度结果与 active learning 算法] — arXiv:2604.24737 — arXiv:2604.24737
[SpecRLBench: LTL 规范引导 RL 的泛化能力基准] — arXiv:2604.24729 — arXiv:2604.24729
[Defective Task Descriptions: SpecValidator 检测 prompt 缺陷（lexical vagueness / under-specification / formatting）超越 frontier LLM] — arXiv:2604.24703 — arXiv:2604.24703
[LLM Sycophancy in Financial Applications: 金融 agent 任务中的 sycophancy 量化，对用户偏好信息的失败模式] — arXiv:2604.24668 — arXiv:2604.24668
[DeepSeek-V4-Pro / V4-Flash 上线 Ollama Cloud——本地化部署再降一档门槛] — Ollama — Ollama
[Perplexity Sonar 2 上线：proprietary LM 优化 web-grounded 搜索回答] — TestingCatalog 4/28 — TestingCatalog 4/28
[OpenClaw 2026.4.25 增量更新：13 个 TTS provider 接入 + 扩展 observability + 浏览器/安装 fixes] — GitHub Releases — GitHub Releases
[Cognition × Mercedes-Benz：Devin + Windsurf 部署使 COBOL 现代化从 8 个月压缩到 8 天（生产案例）] — Cognition — Cognition
[LingBot-Map (HN 40 pts)：流式 3D 重建配 geometric context transformer] — HN — HN
[AgentSwift (Show HN 46 pts)：开源 iOS builder agent] — HN — HN
[Microsoft × OpenAI 终止排他 + 收益分成协议，OpenAI 可向所有云厂商售卖产品（HN 951 pts，4/27）] — Bloomberg — Bloomberg
[Mercor 数据泄露：4TB 语音样本来自 4 万 AI 标注员（HN 579 pts）] — Oravys — Oravys
[中国封锁 Meta 对 Manus 的 $2B 收购，国家安全为由（HN 387 pts）] — CNBC — CNBC
[Anthropic 加入 Blender Development Fund 成为 Corporate Patron（HN 104 pts）] — Blender — Blender
[Google × Pentagon 达成"任何合法用途"AI 协议（HN 69 pts），不含国内监控与自主武器] — The Verge — The Verge

← 2026.04.27 2026.04.30 →