════ 2026.05.20 ════
今日要点
详细内容
ENTRY 001/013
[ AGENT · SKILLS · 评估 · SWEBENCH · TERMINALBENCH · 后训练 ]
SkillsVote:Agent Skills 的收集、推荐与演化治理框架
(SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution)
SkillsVote 把 Agent Skills 定义为“可执行脚本 + 非执行流程指导”的经验 schema,并围绕百万级开源语料建立质量、环境需求、可验证性画像。系统在执行前做 structured skill library search,执行后把轨迹拆成 skill-linked subtasks,并只把成功、可复用的发现写回 skill library。
SkillsVote 的核心价值是把 skill 从“prompt 片段仓库”提升成需要治理的外部经验层。长程 agent 每次执行都会留下脚本、命令、环境假设和失败修复,但原始轨迹噪声很大,直接追加到上下文会污染后续任务。SkillsVote 用 profile、recommendation、attribution、evidence-gated update 四段流程约束 skill 的进入、暴露和演化。
论文报告 offline evolution 让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 pp,online evolution 在 SWE-Bench Pro 上最高提升 2.6 pp。这个结果的含义不是 skill 可以替代模型训练,而是冻结 agent 仍然能通过受控外部经验库获得可验证收益。对企业 agent 平台来说,skill library 很可能会成为和 eval、tool registry、memory store 同级的基础设施。
ENTRY 002/013
[ 视频生成 · DIFFUSION · NVFP4 · NVIDIA · 推理 · 训练 ]
LongLive-2.0:NVFP4 长视频生成训练与推理基础设施
(LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation)
LongLive-2.0 是 NVIDIA 面向长视频生成的 NVFP4 parallel infrastructure,覆盖训练和推理两端。它引入 Balanced SP 的 sequence-parallel AR training、SP-aware chunked VAE encoding、W4A4 NVFP4 inference、NVFP4 KV cache 与异步 streaming VAE decoding,报告训练最高 2.15x、推理最高 1.84x 加速,LongLive-2.0-5B 达到 45.7 FPS。
过去几天的视频生成条目多集中在蒸馏和采样步数,LongLive-2.0 则把问题拉回训练/推理系统本身。长视频的瓶颈不只在 denoising step,还在时间维度带来的显存、KV cache、VAE 编码/解码、跨 GPU 通信和 teacher-forcing layout。LongLive-2.0 用 Balanced SP 把 clean-history 与 noisy-target temporal chunks 配到每个 rank,让 AR 训练和 sequence parallel 执行对齐。
NVFP4 在这里不是单独的量化技巧,而是和 Blackwell GPU、KV cache、GEMM 比例、VAE streaming 共同组成一套长视频路径。它还能把扩散模型直接调成 multi-shot interactive AR diffusion model,再用独立 LoRA 转成 4 到 2 denoising steps 的实时生成形态。这说明视频模型竞争正在从“模型会不会生成好视频”进入“能否长时间、低延迟、可交互地跑起来”。
ENTRY 003/013
[ 多模态 · MOE · 视频生成 · 图像编辑 · BYTEDANCE · 开源模型 ]
Lance:用多任务协同统一图像/视频理解、生成与编辑
(Lance: Unified Multimodal Modeling by Multi-Task Synergy)
Lance 是 ByteDance Research 发布的轻量 native unified multimodal model,覆盖图像/视频理解、生成和编辑。它从头训练,采用 shared interleaved multimodal sequences、dual-stream MoE、modality-aware RoPE 与 staged multi-task training,把统一上下文建模和能力路径解耦结合起来。
统一多模态模型的难点是能力之间相互干扰:理解任务需要稳定语义抽取,生成任务需要高保真视觉合成,编辑任务又要求对源图像/视频保持结构约束。Lance 没有单纯靠扩大模型容量解决,而是用 dual-stream MoE 分离理解与生成路径,同时仍在 interleaved multimodal sequence 上共享上下文。
modality-aware RoPE 处理的是另一类常见问题:不同视觉 token 的空间/时间结构不同,直接混用位置编码容易削弱跨任务对齐。Lance 的 staged multi-task training 和 adaptive data scheduling 说明统一模型的训练 recipe 正在从“混合所有数据”变成按能力目标调度。对应用开发者而言,这类模型如果稳定,会降低同时维护 VLM、image generator、video editor 多套模型的复杂度。
ENTRY 004/013
[ LLM · ATTENTION · 长上下文 · TRITON · 推理优化 ]
DashAttention:可微自适应稀疏层级 Attention
(DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention)
DashAttention 针对 NSA、InfLLMv2 等层级 attention 中固定 top-k block selection 和梯度断裂问题,引入 adaptively sparse alpha-entmax transformation,让第一阶段按 query 选择可变数量 KV blocks,并把该先验传给第二阶段 softmax attention。论文称其在 75% sparsity 下接近 full attention 精度,并提供 Triton GPU-aware implementation,在推理阶段相对 FlashAttention-3 取得加速。
长上下文 attention 优化常见路线是先粗选 KV block,再在候选 block 内做细粒度 attention。但固定 top-k 隐含了“每个 query 需要同样多上下文”的假设,既浪费容易问题的计算,也会截断困难 query 的梯度信号。DashAttention 用 alpha-entmax 让 block selection 可微且自适应,试图把 sparse stage 和 dense stage 重新连成一个可训练层级。
这类工作的重要性在于它直接影响长上下文模型的 serving 经济性。企业 RAG、代码库理解、长文档审阅都在把 context 拉长,但 dense attention 成本仍然是硬约束。如果 DashAttention 在高稀疏区域保持稳定 Pareto frontier,它会给“训练时就学会稀疏访问”的长上下文模型提供更干净的路径,而不是只靠推理期 KV cache 工程补救。
ENTRY 005/013
[ LLM · RLHF · 偏好优化 · 后训练 · REWARDMODEL ]
GPRL:面向开放式偏好的多维在线 RL
(General Preference Reinforcement Learning)
GPRL 试图连接 verifiable reward RL 和 preference optimization 两条后训练路线。它用 General Preference Model 把回答嵌入 k 个 skew-symmetric subspaces,把偏好表示成结构化、可处理非传递性的比较;策略更新时按维度计算 group-relative advantages,并用 drift monitor 发现单轴 reward exploitation。
开放式生成任务很难用单一标量 reward 表示质量。一个回答可能更有帮助但更冗长,或更简洁但遗漏边界条件;在线 RL 如果只追一个 scalar reward,模型容易挤压到 reward model 最敏感的维度,形成新的 reward hacking。GPRL 的判断是:开放式偏好本身应该保持多维结构,而不是在进入 RL 前被压扁。
论文从 Llama-3-8B-Instruct 出发,在 AlpacaEval 2.0 上报告 length-controlled win rate 56.51%,并称在 Arena-Hard、MT-Bench、WildBench 上优于 SimPO 和 SPPO。这里最值得关注的是 closed-loop drift monitor:它把“模型是不是开始单轴投机”作为训练过程的一等信号。随着 RL 后训练从数学/代码扩展到写作、客服、规划和多模态任务,这种多维偏好控制会越来越关键。
ENTRY 006/013
[ MOE · 推理优化 · SELFDISTILLATION · QWEN · GLM ]
ZEDA:把已后训练 MoE 转成可跳过半数 experts 的动态 MoE
(Post-Trained MoE Can Skip Half Experts via Self-Distillation)
ZEDA 面向已经 post-trained 的静态 MoE,插入 parameter-free zero-output experts,并用两阶段 self-distillation 和 group-level balancing loss 把它转换为动态 MoE。作者在 Qwen3-30B-A3B 与 GLM-4.7-Flash 上报告跨 11 个 benchmark 可消除超过 50% expert FLOPs,精度损失很小,并带来约 1.20x 端到端推理加速。
MoE 的理论优势是稀疏激活,但生产推理里很多 token 仍会按固定 expert 数执行。动态 MoE 可以让容易 token 跳过不必要 expert,不过从头预训练动态结构成本很高,也不适合已有模型。ZEDA 的实用点在于它处理的是 post-trained static MoE,目标是让已经完成对齐、指令微调或推理训练的模型低成本获得动态计算路径。
zero-output expert 的设计相当于给路由器一个“什么都不做”的可选项,再用原模型作为 frozen teacher 约束输出不漂移。这个路线对开放 MoE 模型很有吸引力,因为推理成本下降不必等待下一代基座模型发布。1.20x 端到端加速看起来不夸张,但如果能稳定跨任务保精度,对大规模 serving 的成本影响会很直接。
ENTRY 007/013
[ AGENT · TOOLUSE · RL · MCP · 环境合成 · QWEN ]
EnvFactory:自动合成可执行工具环境来训练 Tool-Use Agents
(EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL)
EnvFactory 针对 Agentic RL 缺少可扩展、真实、可执行环境的问题,自动探索并验证 stateful executable tool environments,再用 topology-aware sampling 与 calibrated refinement 合成自然多轮轨迹。论文用 85 个 verified environments 跨 7 个领域生成 2,575 条 SFT/RL trajectories,并在 Qwen3 系列上报告 BFCLv3 最高 +15%、MCP-Atlas +8.6%、tau2-Bench/VitaBench 等对话 benchmark +6%。
tool-use agent 的训练瓶颈不是模型不会输出 JSON,而是缺少足够多、可执行、状态会变化、错误会反馈的环境。真实 API 昂贵且不稳定,LLM simulator 容易幻觉,手写 synthetic environment 又常常太浅。EnvFactory 的路线是从 authentic resources 自动构造环境,并验证工具状态与轨迹,而不是让模型在静态文档或假接口上训练。
它特别强调 implicit human reasoning:合成轨迹不应该像详细操作说明,而应该像真实用户带有隐含目标的请求。这个点很重要,因为企业 agent 常常面对的是不完整需求和多轮澄清,而不是 benchmark 里已经拆好的步骤。EnvFactory 如果能扩展,会让 Agentic RL 从少数昂贵 hand-built environment 走向可持续的数据工厂。
ENTRY 008/013
[ AGENT · HEALTHCARE · MCP · BENCHMARK · WORKFLOW · 企业自动化 ]
CHI-Bench:医疗长流程 Agent 自动化基准
(CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?)
CHI-Bench 面向 provider prior authorization、payer utilization management、care management 三类医疗运营流程,构建包含 20 个 healthcare apps、87 个 MCP tools、1,290+ 文档 managed-care operations handbook skill 的高保真模拟器。30 组 agent harness/models 中最佳只完成 28.0% 任务,strict pass^3 无模型超过 20%,单 session 执行全部任务时性能跌到 3.8%。
CHI-Bench 的价值在于它不把 agent 评估简化成单工具调用或网页导航,而是把 policy density、multi-role composition、multilateral interaction 放进同一个流程。医疗运营任务往往需要读规则、判断资质、和多个角色交互、写出合规 artifact,并在不可逆步骤前做正确决策。这个复杂度很接近金融、保险、政府服务等企业流程。
结果也很有警示意义:最佳配置 28.0% completion 不低,但 strict pass^3 和 single-session 表现说明现有 agent 仍缺少跨角色、跨政策、跨长时间上下文的稳定控制能力。这类 benchmark 会迫使平台从“agent 会不会完成 demo”转向“agent 能否在政策密集、错误代价高的流程里保持可审计行为”。
ENTRY 009/013
[ CODINGAGENT · RL · 开发工具 · CURSOR · 代码生成 ]
Cursor Composer 2.5:面向 coding agent 的 targeted RL 与更长 horizon
(Cursor Introduces Composer 2.5)
Cursor Composer 2.5 把重点放在更强的 planning、codebase understanding 与更长任务 horizon。博客披露其训练包含 targeted RL、synthetic tasks、complex repositories、Muon optimizer、HSDP,并面向 agentic editing、搜索和多文件修改优化。
coding agent 的评估正在从“能否生成一个函数”转向“能否在真实仓库里规划、搜索、修改和验证”。Composer 2.5 的信号在于 Cursor 没有只说模型更聪明,而是公开了更贴近产品形态的训练关注点:targeted RL、synthetic repo tasks、complex codebase context,以及面向长任务的编辑能力。
HN 上这条讨论热度较高,但它进入主条目的原因不是热度,而是 coding agent 产品正在把后训练 recipe 与 IDE runtime 深度绑定。对开发团队来说,模型能力、检索索引、编辑器 action space、测试执行和失败恢复会共同决定体验,单独替换一个通用 LLM 未必能复现同样效果。
ENTRY 010/013
[ PYTORCH · EXECUTORCH · MLX · 端侧AI · 训练框架 · 部署 ]
PyTorch 2.12 与 ExecuTorch MLX:框架侧继续补端侧与训练性能
(PyTorch 2.12 / ExecuTorch Apple MLX Delegate)
PyTorch 2.12 发布带来框架、编译和分布式训练侧更新;ExecuTorch 同期引入 Apple MLX delegate,使 PyTorch edge deployment 能更直接利用 Apple Silicon 上的 MLX runtime。两者共同指向一个趋势:训练框架和端侧 runtime 正在被纳入同一条模型部署链路。
模型能力增长之后,端侧和本地部署越来越受 runtime 约束。ExecuTorch MLX delegate 的意义在于让 PyTorch 导出的 edge model 能利用 Apple Silicon 生态里的 MLX 执行路径,而不是每个应用团队单独维护转换和适配层。对移动端、桌面端和隐私敏感场景来说,这类 runtime bridge 比单个 demo 模型更有长期价值。
PyTorch 2.12 则继续补框架主干能力。当前 AI 工程栈的一个现实是:研究模型、后训练 recipe、推理服务和端侧部署之间的间隔越来越短,框架如果不能同时覆盖编译、分布式、量化和设备后端,模型从论文到产品会被碎片化工具链拖慢。
ENTRY 011/013
[ NVIDIA · GPU · AIINFRASTRUCTURE · AGENTICAI · 推理集群 ]
NVIDIA Vera CPU 首批系统交付:Agentic AI Factory 进入生产验证
(Vera Arrives: NVIDIA's First CPU Built for Agents Lands at Top AI Labs)
NVIDIA 披露 Vera CPU 首批系统交付给 Anthropic、OpenAI、Oracle Cloud Infrastructure 和 SpaceXAI,并把 Vera 定位为面向 agentic AI factory 的 CPU。结合 Vera Rubin NVL72 平台叙事,这类发布更关注训练/推理集群在 agent、multimodal、long-context workload 下的吞吐、互联和能效边界。
agentic workload 对基础设施的压力和传统 batch inference 不同:上下文更长、工具调用和检索带来不规则等待、多模态输入输出增加 VAE/codec/embedding 负担,在线任务又要求低延迟和高可用。Vera CPU 首批进入 frontier lab 与云平台验证,说明 NVIDIA 正在把 CPU、GPU、NVLink 和机架级系统作为 agentic AI factory 的整体问题处理,而不是只卖单张 accelerator。
这条不作为“新模型”看,而是作为生态信号:模型实验室和云厂商会越来越依赖机架级互联、低精度训练/推理、KV cache 复用和异步数据通路。LongLive-2.0 这类 NVFP4 视频系统与 Vera Rubin 平台叙事互相印证,底层硬件和上层模型系统正在同步设计。
ENTRY 012/013
[ ANTHROPIC · API · SDK · 开发者平台 · 生态 ]
Anthropic 收购 Stainless:API SDK 生成进入模型平台内层
(Anthropic acquires Stainless)
Anthropic 宣布收购 Stainless,后者专注基于 API schema 生成类型安全 SDK、文档和开发者体验工具。该事件的技术意义在于,frontier model provider 正在把 API surface、SDK generation、版本演进和开发者工作流纳入平台核心,而不是只暴露模型端点。
这不是单纯公司并购新闻,因为 Stainless 解决的是 AI 平台越来越实际的工程问题:模型 API 频繁增加工具调用、batch、files、realtime、memory、agent runtime 等能力后,SDK 和文档如果跟不上,开发者会在版本差异、类型定义和边界行为上踩坑。把 SDK 生成能力收进平台内部,有助于缩短新 API 能力从发布到可用的距离。
Anthropic 近期持续加强 agent、skills、tools 和 managed runtime。Stainless 进入后,Claude 平台的竞争点可能从“模型端点”进一步扩展到完整开发者体验:schema 设计、语言 SDK、示例、迁移、版本兼容和工具生态。对企业架构师来说,这类基础设施决定了模型平台能否被安全地纳入长期应用,而不只是试用。
ENTRY 013/013
[ VLM · 端侧AI · 多模态 · 开源模型 · MINICPM ]
MiniCPM-V 4.6:面向端侧的轻量多模态模型继续升温
(MiniCPM-V-4.6)
MiniCPM-V-4.6 在 HuggingFace trending models 中热度较高,标签显示其定位为 lightweight、multimodal、On-Device Model,并基于 transformers/safetensors 发布。它代表开源多模态模型继续向本地、端侧和轻量部署倾斜,而不是只追求云端大模型参数规模。
端侧 VLM 的需求和云端 VLM 不完全相同。移动设备、桌面工具、机器人和隐私敏感场景更关心延迟、内存占用、离线可用性和可控部署,而不是在少数大 benchmark 上追最高分。MiniCPM-V 4.6 的热度说明开发者仍在寻找可实际嵌入应用的多模态基座。
它也和 ExecuTorch MLX、Apple Silicon runtime、GGUF/量化模型趋势互相呼应。未来几个月,多模态模型生态很可能会分化为两条线:云端模型负责复杂推理和重生成任务,端侧模型负责快速感知、轻量理解、隐私数据预处理和低延迟交互。
其他值得关注