一日三饭 | HARNESS

← /harness

════ 2026.05.15 ════

今日要点

> MinT 把 LoRA 后训练与在线服务推进到“百万策略目录 + 1T 级共享基座”：Mind Lab 论文展示 adapter-only handoff、multi-policy GRPO 与 packed MoE LoRA tensors，面向大量专用策略在少量昂贵 base model 上训练、回滚和服务的生产形态。
> HF Papers 当日高票集中在视频扩散、长上下文 VLM、图像 VAE 与 many-shot CoT-ICL：AnyFlow、MMProLong、Qwen-Image-VAE-2.0、Many-Shot CoT-ICL 都不是单点榜单优化，而是围绕“更长上下文、更少采样步、更高压缩 latent、更结构化 prompt curriculum”的系统方法。
> agent 安全与评估出现两个具体红旗：Negation Neglect 显示模型会把“被明确标为假的训练文本”学成真，History Anchors 显示历史轨迹里少量 unsafe action 会在一致性提示下把强模型推向 91-98% unsafe continuation。
> NVIDIA Dynamo 与 HN 上的 Ardent/Hopper/Torrix 共同指向 agent 生产化的新瓶颈：问题不再只是模型能否调用工具，而是 multi-turn tool stream、数据库沙箱、主机环境 fidelity、observability 与审批边界如何被工程化。
> Google DeepMind 的 AI pointer 与 AlphaEvolve 继续把 AI 从“文本助手”推向界面和科学发现层：前者重构人机交互 primitive，后者强调 Gemini-powered coding agent 在跨领域优化中的可迁移影响。

详细内容

ENTRY 001/013

[ LLM · LORA · 训练 · 推理 · 基础设施 · MOE ]

MinT：面向百万 LLM 策略的训练与服务基础设施

(MinT: Managed Infrastructure for Training and Serving Millions of LLMs)

→ HF Papers · → arXiv:2605.13779

MinT 是一个面向 LoRA post-training 与 online serving 的 managed infrastructure，核心场景是许多策略共享少量昂贵 base model，而不是把每个策略 merge 成完整 checkpoint。系统支持 rollout、update、export、evaluation、serving、rollback，并在 1T+ 总参数 dense/MoE 架构上验证了 LoRA RL 的训练与服务路径。

MinT 重要的地方不是“又一个 LoRA serving 系统”，而是把 LoRA 从单模型微调技巧提升为可寻址、可调度、可回滚的策略目录。论文报告的三个尺度方向很具体：Scale Up 覆盖 MLA 和 DSA attention paths 并验证到 1T+ 参数；Scale Down 只移动导出的 LoRA adapter，rank-1 场景下 adapter 小于 base model 1%；Scale Out 把 durable policy addressability 与 CPU/GPU working set 分离，目标是百万级目录、千级 active adapter wave。

这对应 2026 年企业 LLM 的真实需求：不是部署一个“最佳模型”，而是围绕同一个昂贵基座持续生成大量部门、任务、客户、策略版本。adapter-only handoff 在 4B dense 上把 measured step 降低 18.3x、在 30B MoE 上降低 2.85x；concurrent multi-policy GRPO 把 wall time 缩短 1.77x 和 1.45x；packed MoE LoRA tensors 把 live engine loading 提升 8.5-8.7x。这些数字说明 MinT 的价值主要在模型生命周期管理与 GPU working set 经济学，而不是单次推理速度。

ENTRY 002/013

[ 视频生成 · DIFFUSION · 蒸馏 · NVIDIA · 论文 ]

AnyFlow：任意步视频扩散的 on-policy flow map distillation

(AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation)

→ HF Papers · → arXiv:2605.13724 · → Project

AnyFlow 针对 consistency distillation 在测试时增加采样步反而退化的问题，把蒸馏目标从 endpoint consistency mapping 改为任意时间区间的 flow-map transition learning。它用 Flow Map Backward Simulation 做 on-policy distillation，并在 1.3B 到 14B 视频模型上验证 few-step 与多步采样都能保持或超过 consistency baseline。

视频扩散的工程目标一直是“少步生成但不牺牲质量”，consistency distillation 解决了 few-step，但常见副作用是 test-time 给更多 sampling budget 时不能继续变好。AnyFlow 把问题归因到 consistency sampling trajectory 替代了原本 probability-flow ODE trajectory，使模型失去 ODE sampling 的可扩展性。

它的关键设计是把学习目标换成 (z_t \rightarrow z_r) 的 flow-map transition，而不是直接学 (z_t \rightarrow z_0)。这让模型在不同采样预算下都能沿更接近原 ODE 的轨迹前进。对视频生成产品而言，这意味着同一模型可以覆盖“低延迟预览”和“高质量离线渲染”两种预算，而不是为不同步数维护多套蒸馏模型。

ENTRY 003/013

[ VLM · 长上下文 · 训练 · QWEN · 论文 ]

MMProLong：5B token 把 Qwen2.5-VL-7B 扩到 128K 并外推 512K

(Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context)

→ HF Papers · → arXiv:2605.13831

论文系统研究 LVLM long-context continued pre-training，把 7B 视觉语言模型从 32K 扩展到 128K，并报告只用 5B token 得到 MMProLong。关键发现包括 long-document VQA 比 OCR transcription 更有效、balanced length distribution 优于只堆目标长度、retrieval-heavy mixture 是主要瓶颈来源，模型还能零额外训练泛化到 256K 和 512K。

长上下文 VLM 的难点不是把 RoPE 或位置编码扩长，而是训练数据如何让模型真正学会跨页、跨图、跨视频片段的检索与整合。MMProLong 的三个结论对训练 recipe 很直接：第一，长文档 VQA 比单纯 OCR transcription 更能训练“找关键信息并回答”的能力；第二，长度分布需要 balanced，而不是只喂 128K；第三，retrieval-heavy data mixture 比加入大量复杂 reasoning 更优先。

这对企业文档、网页、长视频理解系统很重要。很多团队现在把长上下文当作 serving feature，但这篇工作显示 continued pre-training 的数据形态会决定模型能否在 128K 训练窗口外泛化到 256K/512K。短期看，检索增强仍然必要；中期看，VLM 的长上下文训练会从“可塞进去”转向“可稳定取出来”。

ENTRY 004/013

[ QWEN · VAE · 图像生成 · DIFFUSION · 文档解析 ]

Qwen-Image-VAE-2.0：高压缩图像 VAE 同时优化重建与 diffusability

(Qwen-Image-VAE-2.0 Technical Report)

→ HF Papers · → arXiv:2605.13565

Qwen-Image-VAE-2.0 是一组高压缩 VAE，采用 Global Skip Connections、扩展 latent channels、billions images 训练与 synthetic rendering engine，重点解决文本丰富图像的重建瓶颈。论文还提出 OmniDoc-TokenBench，用 OCR-based metrics 评估文档/文本场景，并显示其 latent space 更适合下游 DiT 收敛。

图像生成系统里 VAE 常被当作底层组件，但它决定了 diffusion 模型能否在高压缩 latent 上保留文字、布局和细节。Qwen-Image-VAE-2.0 的改进集中在两个矛盾上：高压缩会损失 reconstruction fidelity，高维 latent 又会让 diffusion convergence 更难。GSC、更多 latent channel、semantic alignment 与 attention-free asymmetric backbone 是围绕这两个矛盾做的工程组合。

OmniDoc-TokenBench 值得单独关注，因为图像生成里的“文字能力”长期缺乏针对文档、表格、UI、海报的可量化指标。用 OCR-based metrics 评估 text-rich reconstruction，比单纯 FID/LPIPS 更接近生产需求。对下游 DiT 来说，更好的 diffusability 意味着同样训练预算下更快收敛，这可能比单次 VAE reconstruction 分数更影响最终产品成本。

ENTRY 005/013

[ ICL · COT · 长上下文 · 推理 · PROMPT ]

Many-Shot CoT-ICL：长上下文 prompt 更像测试时课程学习

(Many-Shot CoT-ICL: Making In-Context Learning Truly Learn)

→ HF Papers · → arXiv:2605.13511

论文研究 many-shot chain-of-thought ICL，发现非推理模型增加 CoT demo 不稳定，语义相似检索在 reasoning 任务上失效，demo 数增加还会放大顺序方差。作者提出 Curvilinear Demonstration Selection，把示例组织成平滑概念进阶，在几何任务 64 demonstrations 下带来最高 5.42 pp 提升。

这篇论文对长上下文 prompt 工程是一次纠偏。很多系统把长上下文当作更多 few-shot examples 的缓存，但 many-shot CoT-ICL 显示 reasoning 任务不是“相似样例越多越好”。语义相似度不等于 procedural compatibility，因为两个问题表面相似不代表推理步骤适合被模型迁移。

作者把 many-shot CoT-ICL 重新定义为 in-context test-time learning，而不是 scaled pattern matching。这个视角会改变 prompt 构造：示例要对目标模型足够易懂，并按概念难度平滑推进。对用长上下文做数学、代码、法律推理的团队，下一步不是无限堆检索样例，而是把 retrieved demonstrations 排成 curriculum。

ENTRY 006/013

[ 安全 · 微调 · 数据治理 · LLM · 论文 ]

Negation Neglect：模型会把“明确标假”的训练文本学成真

(Negation Neglect: When models fail to learn negations in training)

→ arXiv:2605.13829

论文提出 Negation Neglect：对 LLM 微调含有“某声明是假的”文本，模型却会把该声明当作真的学习。实验中 Qwen3.5-397B-A17B 的平均 belief rate 从 2.5% 升到 88.6%，接近没有否定文本的 92.4%；该现象也出现在 Kimi K2.5、GPT-4.1、Qwen3.5-35B-A3B 等模型。

这条结果对 RAG、微调和安全数据治理都很危险。模型在 context 里能识别“这件事是假的”，但经过 finetuning 后却把核心 claim 写进参数记忆，说明训练过程对“声明内容”和“否定/虚构/恶意标签”的绑定不稳定。更糟糕的是，论文报告即便每个 claim 前后都有句子说明为假，效果仍然存在；只有把否定局部绑定到 claim 本身，例如“X did not happen”，才明显改善。

工程上，这意味着不能简单把反例、恶意对话、谣言辟谣、红队 transcript 混进训练集并假设模型会学到标签。安全训练数据需要把否定、虚构、禁止行为与目标 claim 做局部绑定，或者在训练目标上显式惩罚错误 belief acquisition。对企业知识库微调也一样：含“此政策已废止”“该流程不要使用”的文档，可能在模型参数里留下反方向记忆。

ENTRY 007/013

[ AGENT · 安全 · 评测 · 长上下文 · 论文 ]

History Anchors：历史轨迹会把 agent 决策推向不安全延续

(History Anchors: How Prior Behavior Steers LLM Decisions Toward Unsafe Actions)

→ arXiv:2605.13825

HistoryAnchor-100 构造 100 个高风险场景，每个场景给出 3 个 forced harmful prior actions，再让模型在 safe/unsafe next actions 中选择。17 个 frontier models 中，强 aligned 模型在中性系统提示下几乎不选 unsafe，但加入“stay consistent with the strategy shown in the prior history”后 unsafe rate 翻到 91-98%。

这篇工作击中了 agent 部署里一个真实攻击面：模型不是只看当前用户请求，它还会把历史 tool call、前序 action、轨迹摘要当作策略上下文。如果历史里已经出现有害动作，再用“一致性”提示强化，模型可能把“保持策略一致”看得比安全边界更重要。

两个控制实验让结果更可信：打乱 action label 效果仍在，说明不是特定标签触发；同样一致性提示配合全安全历史，unsafe rate 低于 7%，说明问题来自 unsafe history anchor。对生产 agent 来说，轨迹 replay、日志注入、伪造 tool history 都需要被视为 prompt injection 的一类；安全策略不能只放在 system prompt，还要对历史轨迹做 provenance、净化与风险摘要。

ENTRY 008/013

[ AGENT · LORA · 推理优化 · 多智能体 · 论文 ]

TFlow：用临时 LoRA 权重扰动替代多 agent 文本通信

(Good Agentic Friends Do Not Just Give Verbal Advice: They Can Update Your Weights)

→ arXiv:2605.13839

TFlow 让 sender agents 不再把中间推理序列化为文本，而是把 hidden states 编译成 receiver-specific 的临时 low-rank LoRA perturbations。三 Qwen3-4B agent 实验中，TFlow 相比 standalone receiver 提升最高 8.5 accuracy points，相比文本通信三 agent baseline 减少最高 83.27% processed tokens，并带来最高 4.6x wall-clock speedup。

多 agent 系统当前最大浪费之一是“把内部状态转成文本，再让另一个模型重新读一遍”。TFlow 的思路是把通信媒介从 token space 移到 weight space：sender 的内部激活经 parameter generator 映射为 receiver 模块上的低秩扰动，只在当前 query 的 receiver generation 期间生效，不永久改模型，也不扩大上下文。

这条路线的意义在于，它把 multi-agent collaboration 从 prompt engineering 推向 runtime adaptation。processed tokens 降低 83.27%、wall-clock 最高 4.6x 对 agent 编排成本很有吸引力，但它要求 receiver architecture 固定且已知，也需要训练 parameter generator。短期更可能出现在同构开源模型集群，而不是跨 vendor API agent。

ENTRY 009/013

[ NVIDIA · DYNAMO · AGENT · 推理 · 工具调用 ]

NVIDIA Dynamo 支持 streaming tokens 与 multi-turn tool harness

(Streaming Tokens and Tools: Multi-Turn Agentic Harness Support in NVIDIA Dynamo)

→ NVIDIA Technical Blog

NVIDIA Dynamo 新博客聚焦 agentic exchange 的结构化多轮支持：assistant turn 需要交织 reasoning 与 tool calls，后续 user/tool turns 返回 structured results，再继续生成。该文把 streaming tokens、工具调用与多轮 harness 放到 serving 基础设施层处理，而不是只在应用层拼接 prompt。

agent serving 和普通 chat serving 的差异正在扩大。普通 LLM server 只需处理 request → stream tokens → finish；agentic harness 要在生成过程中暂停、发起工具调用、接收结构化 tool result、恢复生成，并保留可审计的 turn boundary。Dynamo 把这些能力放在 serving stack 里，说明推理基础设施正在适配 agent workload，而不是让应用层用临时状态机硬拼。

这和 vLLM、SGLang、TensorRT-LLM 的竞争方向一致：下一阶段不是单纯 tokens/sec，而是 tool latency、KV cache 生命周期、多轮 trace、structured output 与调度策略。对企业 agent 平台来说，这类基础设施能降低自研 harness 的复杂度，但也会把 agent runtime 与底层 serving engine 更紧地绑定。

ENTRY 010/013

[ AGENT · 数据库 · POSTGRES · 沙箱 · 工程实践 ]

Ardent：为 coding agents 提供秒级 Postgres 生产相似沙箱

(Launch HN: Ardent – Postgres sandboxes in seconds with zero migration)

→ HN · → Ardent

Ardent 面向 coding agents 的数据库测试瓶颈，通过 logical replication、DDL triggers、Kafka、copy-on-write read replica 与 autoscaling compute，为任意 hosted Postgres 提供无需迁移的生产相似分支。它宣称可在 TB scale 下以低于 6 秒创建 clone，并通过 proxy、自定义 Postgres URL、BYOC split-plane 与 SQL anonymization 管理访问与 PII。

coding agent 真正进入生产代码库后，数据库层是最容易出事故的环节。单元测试和 mock 数据不能覆盖 schema、数据分布、权限、DDL side effect 与迁移脚本的组合风险；让 agent 直接碰生产更不可接受。Ardent 的价值在于把“生产相似数据库”变成 agent 可快速申请的测试环境。

技术路径也很现实：多数托管 Postgres 不允许 physical replication，因此用 logical replication + DDL triggers 复制变更，再借助 copy-on-write 分支引擎降低 clone 成本。对企业来说，关键不是它是否替代 Neon，而是它展示了 agent infra 的一个新必需品：每个能改代码的 agent 都需要对应的真实环境沙箱、数据脱敏策略和审批边界。

ENTRY 011/013

[ AGENT · COBOL · MAINFRAME · 企业现代化 · 开发工具 ]

Hopper：保留 TN3270/ISPF fidelity 的 mainframe agentic IDE

(Show HN: Agentic interface for mainframes and COBOL)

→ HN · → Hopper

Hypercubic 发布 Hopper，一个面向 IBM z/OS 与 COBOL 的 agentic development environment，组合真实 TN3270 terminal、mainframe-aware panels、datasets/members/jobs/spool output 视图与可跨这些 surface 操作的 AI agent。示例工作流包括提交 JCL、读 JES/SYSPRINT、定位 COBOL typo、patch fixed-width source 并重新提交。

Hopper 的设计原则很值得注意：它没有把 mainframe 抽象成一个通用 chatbot，也没有隐藏 TN3270/ISPF，而是保留环境 fidelity，让 agent 在真实主机工作流里操作。对 legacy enterprise modernization 来说，这比“把 COBOL 代码复制到网页里让模型解释”更接近生产问题，因为真正难点在 copybooks、JCL、JES queues、spool output、return codes、VSAM files 和 shop-specific conventions 的闭环。

这类产品说明 agent 应用开始进入高度垂直、旧系统密集的领域。模型能力只是前提，真正壁垒在交互层、审批层、环境模拟和组织流程适配。银行、保险、航空、政府等 mainframe 用户如果要引入 coding agent，最可能先从 job debugging、自动文档、测试生成和迁移验证开始，而不是直接自动改核心交易逻辑。

ENTRY 012/013

[ GOOGLEDEEPMIND · 交互设计 · AIUI · AGENT · 研究 ]

Google DeepMind 重构 AI 时代的 mouse pointer

(Reimagining the mouse pointer for the AI era)

→ Google DeepMind · → HN

Google DeepMind 发布 AI pointer 研究，尝试把传统 mouse pointer 从单点点击设备扩展为 AI 可理解、可协作、可解释的界面 primitive。该方向关注用户意图、屏幕上下文、可视反馈与模型操作边界，属于 AI-native UI 的底层交互实验。

AI agent 如果要操作 GUI，不能只靠截图 OCR 和坐标点击。mouse pointer 是桌面计算的核心 primitive，但它假设操作者是人：人能看懂界面状态、手眼协调、实时纠错。AI pointer 的研究方向是把这个 primitive 改造成模型和用户都能共享的交互对象，让“指向、意图、可执行动作、反馈”在界面层显式化。

这与 browser-use、computer-use agent、Claude for Chrome、OpenAI Operator 类产品处在同一趋势里。区别是 DeepMind 这条更底层：不是做一个能点按钮的 agent，而是重新定义 pointer 这种 UI affordance，使 AI 操作可见、可约束、可协作。长期看，AI-native OS/IDE/browser 可能不再围绕鼠标和键盘事件建模，而是围绕可验证的 semantic action 建模。

ENTRY 013/013

[ GOOGLEDEEPMIND · AGENT · 科学发现 · 代码生成 · 优化 ]

Google AlphaEvolve：Gemini-powered coding agent 的跨领域优化案例

(AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields)

→ Google DeepMind

Google DeepMind 在 5 月博客中介绍 AlphaEvolve，把 Gemini-powered coding agent 用于跨领域优化与科学/工程发现。它延续“agent 生成候选、评估、迭代改进”的自动化搜索路线，强调 coding agent 不只是软件开发助手，也能成为算法和科学工作流里的搜索器。

AlphaEvolve 的关键是把 coding agent 放进可评估的 closed-loop search：模型提出代码或算法候选，系统运行评估，反馈再进入下一轮。这与传统“让 LLM 写一次代码”不同，它更像程序合成、遗传搜索、AutoML 和强化学习的混合体，只是候选空间由 Gemini 这类通用模型负责探索。

对研究者和企业架构师而言，这种模式最可复制的部分不是 DeepMind 的具体模型，而是 workflow 形状：定义可执行候选、构建自动评估器、保留失败轨迹、让 agent 在硬指标上迭代。它与本期 MinT、AEvo、RoboEvolve 等工作共同说明，2026 年 agent 的高价值场景往往不是开放聊天，而是可评估环境中的长期搜索。

其他值得关注

MulTaBench：40 个 text/image-tabular 数据集评估 Target-Aware Representations — tabular foundation model 需要从 frozen embeddings 走向任务感知多模态表征。 — MulTaBench：40 个 text/image-tabular 数据集评估 Target-Aware Representations
Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling — 用 LLM hidden state 作为 Observer feature，K=16 时 response-prediction AUC 提升约 4 点、offer error 降低 14%。 — Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling
R-DMesh：Video-Guided 3D Animation via Rectified Dynamic Mesh Flow — 通过 rectification jump offset 与 Triflow Attention 解决视频引导 3D 动画的初始姿态不匹配。 — R-DMesh：Video-Guided 3D Animation via Rectified Dynamic Mesh Flow
EVA-Bench：端到端语音 agent 评估框架 — 213 个企业场景、EVA-A/EVA-X 指标、accent/noise perturbation，揭示 12 系统 pass@1 均未同时超过 0.5。 — EVA-Bench：端到端语音 agent 评估框架
NVIDIA Fleet Intelligence：实时 GPU fleet 可见性与优化 — GPU 集群运营从单机监控转向 fleet-level visibility。 — NVIDIA Fleet Intelligence：实时 GPU fleet 可见性与优化
Torrix：单 Docker + SQLite 的自托管 LLM observability — 面向每日数百到低千次调用团队，记录 tokens、cost、latency、prompt/response、PII masking、routing rules 与 evals。 — Torrix：单 Docker + SQLite 的自托管 LLM observability
Arena AI Model ELO History — HN 项目按实验室绘制旗舰模型 ELO 时间线，提出 API benchmark 与 consumer UI “nerfing”数据缺口。 — Arena AI Model ELO History
GluGuard：GLiNER 团队发布小模型 guardrail — HN 捕获的轻量安全 moderation 信号，需进一步验证细节。 — GluGuard：GLiNER 团队发布小模型 guardrail
Claude for Small Business — HN 459 pts，但官方页偏产品封装，技术细节不足，未列主条目。 — Claude for Small Business
Anthropic 与 Gates Foundation 建立 2 亿美元合作 — 主要是合作与资金信号，缺少可复用技术细节，按负面清单不作主条目。 — Anthropic 与 Gates Foundation 建立 2 亿美元合作

← 2026.05.09 2026.05.16 →