一日三饭 | HARNESS

← /harness

════ 2026.05.20 ════

今日要点

> agent 从“会用工具”走向“会治理技能资产”：SkillsVote 把百万级开源 skill 语料、可验证任务合成、执行前推荐、执行后归因与 evidence-gated evolution 串成完整生命周期，并报告冻结模型在 Terminal-Bench 2.0 与 SWE-Bench Pro 上继续提升。
> 长视频与统一多模态模型继续向系统工程收敛：NVIDIA LongLive-2.0 用 NVFP4、sequence-parallel AR training 与异步 VAE 解码打通训练/推理，ByteDance Lance 用 dual-stream MoE 和 staged multi-task training 统一图像/视频理解、生成与编辑。
> 长上下文成本优化出现两条新路线：DashAttention 用可微 adaptive sparse hierarchy 替代固定 top-k block selection，ZEDA 则把已后训练 MoE 转成可跳过半数 expert FLOPs 的动态 MoE。
> agent RL 的训练环境与评估开始贴近企业流程：EnvFactory 自动生成可执行工具环境和多轮轨迹；CHI-Bench 用 20 个医疗应用、87 个 MCP tools 和 1,290+ 文档规则暴露 agent 在 policy-dense workflow 中的真实缺口。
> 开发者工具与生态发布强调“可部署能力”而非单点模型分数：Cursor Composer 2.5、PyTorch 2.12/ExecuTorch MLX、NVIDIA Vera Rubin 与 Anthropic Stainless 都在补齐 coding agent、端侧推理、GPU 互联和 API SDK 生成链路。

详细内容

ENTRY 001/013

[ AGENT · SKILLS · 评估 · SWEBENCH · TERMINALBENCH · 后训练 ]

SkillsVote：Agent Skills 的收集、推荐与演化治理框架

(SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution)

→ HF Papers · → arXiv:2605.18401

SkillsVote 把 Agent Skills 定义为“可执行脚本 + 非执行流程指导”的经验 schema，并围绕百万级开源语料建立质量、环境需求、可验证性画像。系统在执行前做 structured skill library search，执行后把轨迹拆成 skill-linked subtasks，并只把成功、可复用的发现写回 skill library。

SkillsVote 的核心价值是把 skill 从“prompt 片段仓库”提升成需要治理的外部经验层。长程 agent 每次执行都会留下脚本、命令、环境假设和失败修复，但原始轨迹噪声很大，直接追加到上下文会污染后续任务。SkillsVote 用 profile、recommendation、attribution、evidence-gated update 四段流程约束 skill 的进入、暴露和演化。

论文报告 offline evolution 让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 pp，online evolution 在 SWE-Bench Pro 上最高提升 2.6 pp。这个结果的含义不是 skill 可以替代模型训练，而是冻结 agent 仍然能通过受控外部经验库获得可验证收益。对企业 agent 平台来说，skill library 很可能会成为和 eval、tool registry、memory store 同级的基础设施。

ENTRY 002/013

[ 视频生成 · DIFFUSION · NVFP4 · NVIDIA · 推理 · 训练 ]

LongLive-2.0：NVFP4 长视频生成训练与推理基础设施

(LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation)

→ HF Papers · → arXiv:2605.18739

LongLive-2.0 是 NVIDIA 面向长视频生成的 NVFP4 parallel infrastructure，覆盖训练和推理两端。它引入 Balanced SP 的 sequence-parallel AR training、SP-aware chunked VAE encoding、W4A4 NVFP4 inference、NVFP4 KV cache 与异步 streaming VAE decoding，报告训练最高 2.15x、推理最高 1.84x 加速，LongLive-2.0-5B 达到 45.7 FPS。

过去几天的视频生成条目多集中在蒸馏和采样步数，LongLive-2.0 则把问题拉回训练/推理系统本身。长视频的瓶颈不只在 denoising step，还在时间维度带来的显存、KV cache、VAE 编码/解码、跨 GPU 通信和 teacher-forcing layout。LongLive-2.0 用 Balanced SP 把 clean-history 与 noisy-target temporal chunks 配到每个 rank，让 AR 训练和 sequence parallel 执行对齐。

NVFP4 在这里不是单独的量化技巧，而是和 Blackwell GPU、KV cache、GEMM 比例、VAE streaming 共同组成一套长视频路径。它还能把扩散模型直接调成 multi-shot interactive AR diffusion model，再用独立 LoRA 转成 4 到 2 denoising steps 的实时生成形态。这说明视频模型竞争正在从“模型会不会生成好视频”进入“能否长时间、低延迟、可交互地跑起来”。

ENTRY 003/013

[ 多模态 · MOE · 视频生成 · 图像编辑 · BYTEDANCE · 开源模型 ]

Lance：用多任务协同统一图像/视频理解、生成与编辑

(Lance: Unified Multimodal Modeling by Multi-Task Synergy)

→ HF Papers · → arXiv:2605.18678 · → Model

Lance 是 ByteDance Research 发布的轻量 native unified multimodal model，覆盖图像/视频理解、生成和编辑。它从头训练，采用 shared interleaved multimodal sequences、dual-stream MoE、modality-aware RoPE 与 staged multi-task training，把统一上下文建模和能力路径解耦结合起来。

统一多模态模型的难点是能力之间相互干扰：理解任务需要稳定语义抽取，生成任务需要高保真视觉合成，编辑任务又要求对源图像/视频保持结构约束。Lance 没有单纯靠扩大模型容量解决，而是用 dual-stream MoE 分离理解与生成路径，同时仍在 interleaved multimodal sequence 上共享上下文。

modality-aware RoPE 处理的是另一类常见问题：不同视觉 token 的空间/时间结构不同，直接混用位置编码容易削弱跨任务对齐。Lance 的 staged multi-task training 和 adaptive data scheduling 说明统一模型的训练 recipe 正在从“混合所有数据”变成按能力目标调度。对应用开发者而言，这类模型如果稳定，会降低同时维护 VLM、image generator、video editor 多套模型的复杂度。

ENTRY 004/013

[ LLM · ATTENTION · 长上下文 · TRITON · 推理优化 ]

DashAttention：可微自适应稀疏层级 Attention

(DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention)

→ arXiv:2605.18753

DashAttention 针对 NSA、InfLLMv2 等层级 attention 中固定 top-k block selection 和梯度断裂问题，引入 adaptively sparse alpha-entmax transformation，让第一阶段按 query 选择可变数量 KV blocks，并把该先验传给第二阶段 softmax attention。论文称其在 75% sparsity 下接近 full attention 精度，并提供 Triton GPU-aware implementation，在推理阶段相对 FlashAttention-3 取得加速。

长上下文 attention 优化常见路线是先粗选 KV block，再在候选 block 内做细粒度 attention。但固定 top-k 隐含了“每个 query 需要同样多上下文”的假设，既浪费容易问题的计算，也会截断困难 query 的梯度信号。DashAttention 用 alpha-entmax 让 block selection 可微且自适应，试图把 sparse stage 和 dense stage 重新连成一个可训练层级。

这类工作的重要性在于它直接影响长上下文模型的 serving 经济性。企业 RAG、代码库理解、长文档审阅都在把 context 拉长，但 dense attention 成本仍然是硬约束。如果 DashAttention 在高稀疏区域保持稳定 Pareto frontier，它会给“训练时就学会稀疏访问”的长上下文模型提供更干净的路径，而不是只靠推理期 KV cache 工程补救。

ENTRY 005/013

[ LLM · RLHF · 偏好优化 · 后训练 · REWARDMODEL ]

GPRL：面向开放式偏好的多维在线 RL

(General Preference Reinforcement Learning)

→ arXiv:2605.18721

GPRL 试图连接 verifiable reward RL 和 preference optimization 两条后训练路线。它用 General Preference Model 把回答嵌入 k 个 skew-symmetric subspaces，把偏好表示成结构化、可处理非传递性的比较；策略更新时按维度计算 group-relative advantages，并用 drift monitor 发现单轴 reward exploitation。

开放式生成任务很难用单一标量 reward 表示质量。一个回答可能更有帮助但更冗长，或更简洁但遗漏边界条件；在线 RL 如果只追一个 scalar reward，模型容易挤压到 reward model 最敏感的维度，形成新的 reward hacking。GPRL 的判断是：开放式偏好本身应该保持多维结构，而不是在进入 RL 前被压扁。

论文从 Llama-3-8B-Instruct 出发，在 AlpacaEval 2.0 上报告 length-controlled win rate 56.51%，并称在 Arena-Hard、MT-Bench、WildBench 上优于 SimPO 和 SPPO。这里最值得关注的是 closed-loop drift monitor：它把“模型是不是开始单轴投机”作为训练过程的一等信号。随着 RL 后训练从数学/代码扩展到写作、客服、规划和多模态任务，这种多维偏好控制会越来越关键。

ENTRY 006/013

[ MOE · 推理优化 · SELFDISTILLATION · QWEN · GLM ]

ZEDA：把已后训练 MoE 转成可跳过半数 experts 的动态 MoE

(Post-Trained MoE Can Skip Half Experts via Self-Distillation)

→ HF Papers · → arXiv:2605.18643

ZEDA 面向已经 post-trained 的静态 MoE，插入 parameter-free zero-output experts，并用两阶段 self-distillation 和 group-level balancing loss 把它转换为动态 MoE。作者在 Qwen3-30B-A3B 与 GLM-4.7-Flash 上报告跨 11 个 benchmark 可消除超过 50% expert FLOPs，精度损失很小，并带来约 1.20x 端到端推理加速。

MoE 的理论优势是稀疏激活，但生产推理里很多 token 仍会按固定 expert 数执行。动态 MoE 可以让容易 token 跳过不必要 expert，不过从头预训练动态结构成本很高，也不适合已有模型。ZEDA 的实用点在于它处理的是 post-trained static MoE，目标是让已经完成对齐、指令微调或推理训练的模型低成本获得动态计算路径。

zero-output expert 的设计相当于给路由器一个“什么都不做”的可选项，再用原模型作为 frozen teacher 约束输出不漂移。这个路线对开放 MoE 模型很有吸引力，因为推理成本下降不必等待下一代基座模型发布。1.20x 端到端加速看起来不夸张，但如果能稳定跨任务保精度，对大规模 serving 的成本影响会很直接。

ENTRY 007/013

[ AGENT · TOOLUSE · RL · MCP · 环境合成 · QWEN ]

EnvFactory：自动合成可执行工具环境来训练 Tool-Use Agents

(EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL)

→ arXiv:2605.18703

EnvFactory 针对 Agentic RL 缺少可扩展、真实、可执行环境的问题，自动探索并验证 stateful executable tool environments，再用 topology-aware sampling 与 calibrated refinement 合成自然多轮轨迹。论文用 85 个 verified environments 跨 7 个领域生成 2,575 条 SFT/RL trajectories，并在 Qwen3 系列上报告 BFCLv3 最高 +15%、MCP-Atlas +8.6%、tau2-Bench/VitaBench 等对话 benchmark +6%。

tool-use agent 的训练瓶颈不是模型不会输出 JSON，而是缺少足够多、可执行、状态会变化、错误会反馈的环境。真实 API 昂贵且不稳定，LLM simulator 容易幻觉，手写 synthetic environment 又常常太浅。EnvFactory 的路线是从 authentic resources 自动构造环境，并验证工具状态与轨迹，而不是让模型在静态文档或假接口上训练。

它特别强调 implicit human reasoning：合成轨迹不应该像详细操作说明，而应该像真实用户带有隐含目标的请求。这个点很重要，因为企业 agent 常常面对的是不完整需求和多轮澄清，而不是 benchmark 里已经拆好的步骤。EnvFactory 如果能扩展，会让 Agentic RL 从少数昂贵 hand-built environment 走向可持续的数据工厂。

ENTRY 008/013

[ AGENT · HEALTHCARE · MCP · BENCHMARK · WORKFLOW · 企业自动化 ]

CHI-Bench：医疗长流程 Agent 自动化基准

(CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?)

→ HF Papers · → arXiv:2605.16679

CHI-Bench 面向 provider prior authorization、payer utilization management、care management 三类医疗运营流程，构建包含 20 个 healthcare apps、87 个 MCP tools、1,290+ 文档 managed-care operations handbook skill 的高保真模拟器。30 组 agent harness/models 中最佳只完成 28.0% 任务，strict pass^3 无模型超过 20%，单 session 执行全部任务时性能跌到 3.8%。

CHI-Bench 的价值在于它不把 agent 评估简化成单工具调用或网页导航，而是把 policy density、multi-role composition、multilateral interaction 放进同一个流程。医疗运营任务往往需要读规则、判断资质、和多个角色交互、写出合规 artifact，并在不可逆步骤前做正确决策。这个复杂度很接近金融、保险、政府服务等企业流程。

结果也很有警示意义：最佳配置 28.0% completion 不低，但 strict pass^3 和 single-session 表现说明现有 agent 仍缺少跨角色、跨政策、跨长时间上下文的稳定控制能力。这类 benchmark 会迫使平台从“agent 会不会完成 demo”转向“agent 能否在政策密集、错误代价高的流程里保持可审计行为”。

ENTRY 009/013

[ CODINGAGENT · RL · 开发工具 · CURSOR · 代码生成 ]

Cursor Composer 2.5：面向 coding agent 的 targeted RL 与更长 horizon

(Cursor Introduces Composer 2.5)

→ Cursor Blog

Cursor Composer 2.5 把重点放在更强的 planning、codebase understanding 与更长任务 horizon。博客披露其训练包含 targeted RL、synthetic tasks、complex repositories、Muon optimizer、HSDP，并面向 agentic editing、搜索和多文件修改优化。

coding agent 的评估正在从“能否生成一个函数”转向“能否在真实仓库里规划、搜索、修改和验证”。Composer 2.5 的信号在于 Cursor 没有只说模型更聪明，而是公开了更贴近产品形态的训练关注点：targeted RL、synthetic repo tasks、complex codebase context，以及面向长任务的编辑能力。

HN 上这条讨论热度较高，但它进入主条目的原因不是热度，而是 coding agent 产品正在把后训练 recipe 与 IDE runtime 深度绑定。对开发团队来说，模型能力、检索索引、编辑器 action space、测试执行和失败恢复会共同决定体验，单独替换一个通用 LLM 未必能复现同样效果。

ENTRY 010/013

[ PYTORCH · EXECUTORCH · MLX · 端侧AI · 训练框架 · 部署 ]

PyTorch 2.12 与 ExecuTorch MLX：框架侧继续补端侧与训练性能

(PyTorch 2.12 / ExecuTorch Apple MLX Delegate)

→ PyTorch 2.12 · → ExecuTorch MLX

PyTorch 2.12 发布带来框架、编译和分布式训练侧更新；ExecuTorch 同期引入 Apple MLX delegate，使 PyTorch edge deployment 能更直接利用 Apple Silicon 上的 MLX runtime。两者共同指向一个趋势：训练框架和端侧 runtime 正在被纳入同一条模型部署链路。

模型能力增长之后，端侧和本地部署越来越受 runtime 约束。ExecuTorch MLX delegate 的意义在于让 PyTorch 导出的 edge model 能利用 Apple Silicon 生态里的 MLX 执行路径，而不是每个应用团队单独维护转换和适配层。对移动端、桌面端和隐私敏感场景来说，这类 runtime bridge 比单个 demo 模型更有长期价值。

PyTorch 2.12 则继续补框架主干能力。当前 AI 工程栈的一个现实是：研究模型、后训练 recipe、推理服务和端侧部署之间的间隔越来越短，框架如果不能同时覆盖编译、分布式、量化和设备后端，模型从论文到产品会被碎片化工具链拖慢。

ENTRY 011/013

[ NVIDIA · GPU · AIINFRASTRUCTURE · AGENTICAI · 推理集群 ]

NVIDIA Vera CPU 首批系统交付：Agentic AI Factory 进入生产验证

(Vera Arrives: NVIDIA's First CPU Built for Agents Lands at Top AI Labs)

→ NVIDIA Blog

NVIDIA 披露 Vera CPU 首批系统交付给 Anthropic、OpenAI、Oracle Cloud Infrastructure 和 SpaceXAI，并把 Vera 定位为面向 agentic AI factory 的 CPU。结合 Vera Rubin NVL72 平台叙事，这类发布更关注训练/推理集群在 agent、multimodal、long-context workload 下的吞吐、互联和能效边界。

agentic workload 对基础设施的压力和传统 batch inference 不同：上下文更长、工具调用和检索带来不规则等待、多模态输入输出增加 VAE/codec/embedding 负担，在线任务又要求低延迟和高可用。Vera CPU 首批进入 frontier lab 与云平台验证，说明 NVIDIA 正在把 CPU、GPU、NVLink 和机架级系统作为 agentic AI factory 的整体问题处理，而不是只卖单张 accelerator。

这条不作为“新模型”看，而是作为生态信号：模型实验室和云厂商会越来越依赖机架级互联、低精度训练/推理、KV cache 复用和异步数据通路。LongLive-2.0 这类 NVFP4 视频系统与 Vera Rubin 平台叙事互相印证，底层硬件和上层模型系统正在同步设计。

ENTRY 012/013

[ ANTHROPIC · API · SDK · 开发者平台 · 生态 ]

Anthropic 收购 Stainless：API SDK 生成进入模型平台内层

(Anthropic acquires Stainless)

→ Anthropic

Anthropic 宣布收购 Stainless，后者专注基于 API schema 生成类型安全 SDK、文档和开发者体验工具。该事件的技术意义在于，frontier model provider 正在把 API surface、SDK generation、版本演进和开发者工作流纳入平台核心，而不是只暴露模型端点。

这不是单纯公司并购新闻，因为 Stainless 解决的是 AI 平台越来越实际的工程问题：模型 API 频繁增加工具调用、batch、files、realtime、memory、agent runtime 等能力后，SDK 和文档如果跟不上，开发者会在版本差异、类型定义和边界行为上踩坑。把 SDK 生成能力收进平台内部，有助于缩短新 API 能力从发布到可用的距离。

Anthropic 近期持续加强 agent、skills、tools 和 managed runtime。Stainless 进入后，Claude 平台的竞争点可能从“模型端点”进一步扩展到完整开发者体验：schema 设计、语言 SDK、示例、迁移、版本兼容和工具生态。对企业架构师来说，这类基础设施决定了模型平台能否被安全地纳入长期应用，而不只是试用。

ENTRY 013/013

[ VLM · 端侧AI · 多模态 · 开源模型 · MINICPM ]

MiniCPM-V 4.6：面向端侧的轻量多模态模型继续升温

(MiniCPM-V-4.6)

→ HuggingFace Model

MiniCPM-V-4.6 在 HuggingFace trending models 中热度较高，标签显示其定位为 lightweight、multimodal、On-Device Model，并基于 transformers/safetensors 发布。它代表开源多模态模型继续向本地、端侧和轻量部署倾斜，而不是只追求云端大模型参数规模。

端侧 VLM 的需求和云端 VLM 不完全相同。移动设备、桌面工具、机器人和隐私敏感场景更关心延迟、内存占用、离线可用性和可控部署，而不是在少数大 benchmark 上追最高分。MiniCPM-V 4.6 的热度说明开发者仍在寻找可实际嵌入应用的多模态基座。

它也和 ExecuTorch MLX、Apple Silicon runtime、GGUF/量化模型趋势互相呼应。未来几个月，多模态模型生态很可能会分化为两条线：云端模型负责复杂推理和重生成任务，端侧模型负责快速感知、轻量理解、隐私数据预处理和低延迟交互。

其他值得关注

Post-trained MoE can skip half experts via self-distillation — 与 ZEDA 主条目同源，适合关注 MoE serving 成本的团队继续细读实现细节。 — Post-trained MoE can skip half experts via self-distillation
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection — 面向 long-context chunked prefill 的 KV block selection，最高报告 2.72x attention speedup。 — CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
Stop When Reasoning Converges — 用 semantic-preserving early exit 减少 reasoning models 的冗余推理 token。 — Stop When Reasoning Converges
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use — 发现模型“知道需要工具”和“实际调用工具”之间存在显著断层。 — Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use
Apple unveils new accessibility features and updates with Apple Intelligence — 属于产品生态更新，含 Apple Intelligence 辅助功能信号，但技术细节不足以作为主条目。 — Apple unveils new accessibility features and updates with Apple Intelligence
Andon Labs: We let AIs run radio stations — 有趣的长时间 autonomous agent 实验，偏应用观察，工程可复用细节有限。 — Andon Labs: We let AIs run radio stations
Show HN: InsForge — 面向 coding agents 的开源 Heroku 式环境，适合作为 agent dev environment 信号观察。 — Show HN: InsForge
LLMCap — 给 LLM API 调用加硬成本上限的代理工具，定位窄但解决真实预算控制问题。 — LLMCap
Product Hunt AI tools — 本期检索到多条 AI 产品上新，但多数缺少模型、架构或部署细节，未作为主条目。 — Product Hunt AI tools

← 2026.05.18 2026.05.22 →