一日三饭 | HARNESS

← /harness

════ 2026.05.18 ════

今日要点

> HF Papers 今日高票集中在“世界模型 + multimodal reasoning + 可引用 VQA”：PhysBrain、MMSkills、CiteVQA 共同把多模态模型从识别/生成推向物理属性、组合技能和可验证引用。
> 后训练与推理训练基础设施继续向省算力收敛：Flash-GRPO 用 one-step policy optimization 对齐视频扩散，DualKV 则把 GRPO/DAPO 大 rollout 中共享 prompt 的重复 KV 计算变成显式优化对象。
> Google Gemma 4 MTP 与 Qwen MTP 社区热度形成同一信号：开源/开放模型竞争点正在从“模型分数”扩展到“配套 speculative decoding 资产是否随模型一起发布”。
> agent 安全从原则进入漏洞级别：Microsoft 披露 Semantic Kernel 中 prompt injection 到 host-level RCE 的路径，说明工具绑定 agent 的安全边界已经不能只靠 prompt policy。
> 开源工具榜单显示 agent-native 软件正在下沉到 CLI、RAG、voice 和本地 runtime：CLI-Anything、LEANN、Dograh、OpenSquilla 等项目把 agent 的问题从“会不会推理”转到“如何控制软件、索引个人数据、约束 token 预算和运行成本”。

详细内容

ENTRY 001/012

[ WORLDMODEL · EMBODIEDAI · 3D · 物理模拟 · 多模态 ]

PhysBrain：面向 3D Embodied AI 的物理感知世界模型

(PhysBrain: A Physics-Aware World Model for 3D Embodied AI)

→ HF Papers · → arXiv:2605.15298

PhysBrain 把 3D scene reconstruction、generation、editing 与 physical property prediction 放进统一框架，目标是让 embodied AI 不只看到几何结构，还能预测质量、摩擦、弹性等物理属性并进行 simulation。HF Papers 今日给出 239 upvotes，是当天最高票论文。

3D 世界模型的短板长期在“看起来像”与“物理上可用”之间。很多 3D generative pipeline 可以生成资产或场景，但机器人、仿真和交互式 agent 需要知道物体能否被推动、是否会滑动、受力后如何变化。PhysBrain 的价值在于把物理属性预测作为世界模型的一等输出，而不是后处理标签。

这对 embodied AI 的影响很直接：如果模型可以把视觉场景转成带物理参数的可模拟状态，agent 就能在执行前做 rollout，而不是只靠语言计划或 2D affordance。它也和近期视频 world model 的低延迟路线形成互补，一个偏空间与物理一致性，一个偏时间 rollout 与交互速度。

ENTRY 002/012

[ VLM · BENCHMARK · 多模态推理 · 评测 ]

MMSkills：多模态多技能推理基准

(MMSkills: Benchmarking Reasoning in Multimodal Multiple Skills)

→ HF Papers · → arXiv:2605.15824

MMSkills 聚焦 multimodal multiple skills reasoning，评估模型在同一任务中组合视觉理解、数学、空间、常识和语言推理等能力的稳定性。HF Papers 今日 215 upvotes，说明社区正在关注比单项 VQA 更接近真实任务的组合技能评测。

现有多模态评测往往把能力拆成独立题型：读图、OCR、数学、定位、常识问答。真实应用很少这么干净，一个维修、医学影像、图表分析或 UI 操作任务通常要求模型先看懂画面，再抽取细节，再跨多个技能链条做推理。MMSkills 的方向就是把这种组合能力暴露出来。

这类 benchmark 的意义不只是排名。对模型训练团队来说，它能帮助定位“单技能强但组合失败”的模型；对应用团队来说，它能解释为什么一个模型在 MMMU 或 DocVQA 上看似够好，进入真实工作流却会在跨步骤时失真。

ENTRY 003/012

[ VQA · CITATION · 文档智能 · 可信AI · 评测 ]

CiteVQA：要求 VQA 给出人工验证引用框

(CiteVQA: Visual Question Answering with Human-Verified Citations)

→ HF Papers · → arXiv:2605.15236

CiteVQA 要求模型在回答视觉问题时同时返回 element-level bounding-box citations，并把答案正确性与引用正确性联合评估。它针对 document intelligence 与图像问答中的 attribution hallucination，暴露 answer-only benchmark 看不到的可靠性缺口。

VQA 的生产问题通常不是模型完全答错，而是答对了却无法证明依据，或者引用了错误区域但语言回答看似合理。CiteVQA 把“答案从哪里来”变成评分对象，要求模型用 bounding box 指向支撑答案的视觉元素，这比普通链式解释更接近可审计需求。

对文档 AI、保险理赔、财务审阅和医疗影像辅助系统来说，这种评测比单纯 accuracy 更重要。用户需要知道模型是否真的读到了票据字段、图表区域或页面注释，而不是从上下文先验猜出答案。CiteVQA 代表的趋势是：多模态模型的可靠性会越来越依赖 grounding 与 attribution，而不是只看最终文本。

ENTRY 004/012

[ 视频生成 · DIFFUSION · GRPO · 对齐 · 训练效率 ]

Flash-GRPO：用 one-step policy optimization 对齐视频扩散

(Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization)

→ arXiv:2605.15980

Flash-GRPO 是面向 video diffusion alignment 的 single-step training framework，在低计算预算下超过 full trajectory training 的对齐质量，并显著提升训练效率。它把 RL-style policy optimization 引入视频生成对齐，但避免完整轨迹训练的高成本。

视频扩散的对齐问题比图像更贵，因为每次 rollout 都包含时间维度，完整 trajectory 的采样和 reward 评估成本非常高。Flash-GRPO 的核心价值在于把优化压到 single-step，让模型仍然能利用偏好或奖励信号，但不必为每次更新承担完整视频轨迹成本。

这延续了近期视频生成里的两个方向：一是把采样步数压低，二是把训练和后训练过程本身做得更便宜。对开发者来说，低成本 alignment 意味着更小团队也可能围绕特定风格、安全约束或产品场景微调视频模型，而不是只能消费大厂预训练结果。

ENTRY 005/012

[ LLM · RL · GRPO · FLASHATTENTION · 训练基础设施 ]

DualKV：为 GRPO/DAPO 大 rollout 复用 shared prompt 的 Flash Attention

(DualKV: Shared-Prompt Flash Attention for Efficient RL Training with Large Rollouts and Long Contexts)

→ arXiv:2605.15422

DualKV 针对 GRPO、DAPO 等 RL post-training 中的共享 prompt 场景：同一个 prompt 会采样 N 条 response，但标准 FlashAttention 会在 forward/backward 中重复复制 P 个 prompt token。论文把 shared prompt 的 KV 复用显式化，面向 large rollouts 与 long contexts 降低重复计算和显存压力。

推理模型后训练的成本越来越集中在 rollout。一个长 prompt 配多条 response 是 GRPO/DAPO 的常见形态，但工程实现如果把 prompt token 在每条样本里重复算一遍，就会把本来相同的上下文变成 N 倍开销。DualKV 直接处理这个浪费点，属于非常贴近训练系统瓶颈的优化。

它的意义在于，RLVR 和 reasoning post-training 已经从算法阶段进入系统阶段。未来训练 recipe 的差异不只是谁的 reward 更好，也包括谁能用更低内存跑更长 context、更多 rollout、更高并发的 verifier。这类基础设施优化会决定小模型和开放模型社区能否跟上 frontier lab 的训练迭代速度。

ENTRY 006/012

[ LLM · 科学AI · FORECASTING · TREESEARCH · 应用范式 ]

LLM-guided tree search 用于多病原体前瞻预测

(Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search)

→ arXiv:2605.16238

论文提出一个 autonomous system，用 LLM-guided tree search 迭代生成、评估和优化可执行的 forecasting software，用于多病原体疾病预测。它把 LLM 作为搜索和程序生成组件，而不是只做文字总结。

科学场景里的 LLM 应用开始从“帮研究者写代码”推进到“生成可执行假设并自动评估”。这篇工作的关键是 forecasting software 本身成为搜索对象：LLM 生成候选方法，系统执行评估，再用树搜索继续扩展更有希望的分支。

多病原体预测是一个高噪声、高约束的场景，单靠语言模型常识很难可靠。把 LLM 放进可执行评估环路，可以把生成能力限制在可测量的预测性能里。这个范式对气候、材料、药物筛选和运营预测也有迁移价值：LLM 不直接给最终答案，而是驱动可验证程序的搜索。

ENTRY 007/012

[ 图像生成 · DIFFUSION · UNIFIEDTRANSFORMER · 开源 · 多模态 ]

HiDream-O1-Image：像素空间统一图像生成模型

(HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer)

→ arXiv:2605.11061 · → HF Papers · → Model

HiDream-O1-Image 用 Pixel-level Unified Transformer 把 raw image pixels、text tokens 与 task-specific conditions 映射到同一 token space，去掉外部 VAE 和分离 text encoder。论文报告 8B 模型可达到或超过更大模型，并扩展到 200B+ HiDream-O1-Image-Pro 验证可扩展性。

当前图像生成系统通常是拼装结构：text encoder、VAE、diffusion backbone、编辑条件模块各司其职。HiDream-O1-Image 的路线更激进，把像素、文本和条件统一进一个 transformer token space，让生成、编辑、subject personalization 都变成同一种 in-context visual generation 过程。

这种结构如果成立，会改变图像模型的工程边界。VAE 不再是固定信息瓶颈，文本与图像条件也不再通过多个模块间接对齐。短期内还要看社区复现实测，尤其是细节、速度、LoRA 训练和编辑一致性；但它明确指向一个趋势：视觉生成模型正在吸收 LLM 式统一 token interface。

ENTRY 008/012

[ GEMMA · 推理 · SPECULATIVEDECODING · MTP · 开源模型 ]

Google 为 Gemma 4 发布 MTP drafters，推理最高 3x 加速

(Accelerating Gemma 4: faster inference with multi-token prediction drafters)

→ Google Blog

Google 为 Gemma 4 系列发布 Multi-Token Prediction drafters，用专门的 speculative decoding 架构预测多个未来 token，再由目标模型并行验证。官方报告在 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 等 runtime 上最高 3x 加速，且不降低输出质量或 reasoning logic。

这次发布重要的地方是 drafters 成为模型家族的一部分，而不是第三方 serving 框架的可选优化。开放模型用户真正关心的是端侧、Mac、本地 GPU 和云端推理能否稳定跑起来；如果 speculative decoding 权重、runtime 集成和测试数据随模型一起发布，模型的实际可用性会明显提高。

它也解释了近期 Qwen MTP、Unsloth GGUF 和社区 speculative decoding 的热度。开源模型竞争不再只看参数量、license 和 benchmark，配套推理资产正在变成默认要求。对部署团队来说，未来选型要问的不只是“模型多聪明”，还要问“有没有官方 drafter、vLLM/SGLang/llama.cpp 路径是否成熟、acceptance rate 在业务 prompt 上是否稳定”。

ENTRY 009/012

[ AGENT · 安全 · PROMPTINJECTION · RCE · SEMANTICKERNEL ]

Semantic Kernel 漏洞显示 prompt injection 可升级为 host-level RCE

(When prompts become shells: RCE vulnerabilities in AI agent frameworks)

→ Microsoft Security

Microsoft 披露 Semantic Kernel 中两个 agent framework 漏洞：CVE-2026-26030 In-Memory Vector Store 与 CVE-2026-25592 SessionsPythonPlugin 任意文件写入。研究展示单个 prompt 足以让 agent 在宿主机启动 calc.exe，说明 prompt injection 在工具绑定 agent 中可以变成代码执行 primitive。

这篇文章的价值在于它把 agent 安全从抽象原则落到漏洞链条。传统 prompt injection 多被看作“模型听错话”或“泄露上下文”，但当 agent 能调用文件、Python session、vector store 和本地插件时，模型输出就可能跨过自然语言边界，变成宿主机上的操作。

对工程团队来说，结论很明确：工具 schema、参数校验、文件系统权限、sandbox、审计日志和补丁管理必须按应用安全处理，不能假设模型会“拒绝危险请求”。agent framework 是新的应用运行时，一旦它把自然语言映射到系统工具，漏洞影响面就接近传统 RCE。

ENTRY 010/012

[ AGENT · CLI · 工具调用 · 开源 ]

CLI-Anything：把任意软件包装成 agent-native CLI

(CLI-Anything: Making ALL Software Agent-Native)

→ GitHub

CLI-Anything 登上 GitHub Python daily trending，项目目标是把软件功能包装成 agent 可以稳定调用的 CLI-Hub。榜单显示其约 36k stars，并在当天新增 1,047 stars。

agent 的一个实际瓶颈是 GUI 和非结构化软件接口。浏览器自动化可以覆盖一部分场景，但它脆弱、慢、难审计。CLI-Anything 代表的方向是把软件能力转换成更适合 agent 的命令式接口，让模型通过稳定参数调用功能，而不是模拟人类点击。

这和 MCP、tool schema、computer use 是同一条线上的不同层次。对开发者来说，最有价值的 agent 工具不一定是更复杂的多 agent 框架，而可能是把已有软件暴露成低歧义、可记录、可回放的操作面。

ENTRY 011/012

[ RAG · 本地AI · 向量检索 · 隐私 · 开源 ]

LEANN：用 97% storage savings 做个人设备上的 RAG on Everything

(LEANN: RAG on Everything)

→ GitHub

LEANN 在 GitHub Python daily trending 中出现，项目描述为 MLsys 2026 工作，目标是在个人设备上运行快速、准确、100% private 的 RAG，并报告 97% storage savings。榜单显示约 11.4k stars。

本地 RAG 的核心成本不是 demo，而是长期索引：邮件、PDF、网页、代码、笔记、图片元数据会持续增长，embedding 与索引体积很快超过普通设备的舒适范围。LEANN 把 storage savings 放在标题里，说明本地 AI 的竞争点正在从“能不能检索”转向“能否长期、私有、低成本地检索一切”。

这对个人知识库、企业端侧助手和隐私敏感行业都很实际。越来越多模型可以本地运行后，下一个瓶颈就是数据层：如何索引、压缩、更新、删除和审计个人数据。RAG 系统如果不能解决存储与维护成本，就很难从一次性 demo 变成日常基础设施。

ENTRY 012/012

[ VLM · 端侧AI · OPENBMB · 多模态 · 开源模型 ]

MiniCPM-V-4.6：1.3B 级端侧多模态模型继续上榜

(MiniCPM-V 4.6)

→ HF Model · → Artificial Analysis

MiniCPM-V-4.6 位列 HuggingFace trending models 首位，模型卡显示 759 likes、80k+ downloads，并带有 image-text-to-text、multimodal、on-device、lightweight 等标签。第三方评测称 1.3B Instruct 支持 text、image、video 输入，并在 MMMU-Pro 上达到 38%。

MiniCPM-V-4.6 的信号是端侧多模态继续缩小可用门槛。1.3B 级模型不可能替代大型 VLM，但它可以进入手机、浏览器、本地文档工具和隐私敏感应用，承担 OCR、截图理解、轻量视频/图像问答等任务。

端侧模型的关键不是单项榜单第一，而是“足够好 + 足够小 + 可部署”。如果一个小 VLM 可以处理常见文档、UI 和图片任务，许多应用就不必把所有视觉数据送到云端。MiniCPM-V 系列持续上榜说明轻量多模态模型正在成为实际产品组件，而不是压缩实验。

其他值得关注

FashionChameleon：面向可定制长视频生成的服装变色模型 (FashionChameleon: Customizing Long Video Generation with Subject-Conditioned LoRA) — FashionChameleon：面向可定制长视频生成的服装变色模型
Learning to Foresee：动态场景未来预测 (Learning to Foresee: Dynamic Scene Understanding via Future Prediction) — Learning to Foresee：动态场景未来预测
Sulphur-2-base — HF Models trending，LTX-2.3 fine-tune，包含 text-to-video、image-to-video、distill LoRA 与 ComfyUI workflows。 — Sulphur-2-base
Supertone/supertonic-3 — HF Models/Spaces trending，面向多语言 on-device TTS 与 speech synthesis。 — Supertone/supertonic-3
OpenSquilla — 新的本地 AI agent runtime，强调 fixed token spending 与 Web UI onboarding。 — OpenSquilla
Dograh — GitHub Python daily trending，定位为 open source voice agent platform。 — Dograh
SocialReasoning-Bench — Microsoft Research 提出衡量 agent 是否真正改善用户利益的社会推理评测，作为 agent alignment 方向的补充信号。 — SocialReasoning-Bench
OpenTools 5 月 18 日 AI News — 捕捉到 OpenAI Symphony、ChatGPT Finance Dashboard 等生态动态；部分缺少一手技术细节，未进入主条目。 — OpenTools 5 月 18 日 AI News

← 2026.05.16 2026.05.20 →