一日三饭 | HARNESS

← /harness

════ 2026.05.24 ════

今日要点

> OpenAI 通用 reasoning model 证伪 Erdős 1946 年的单位距离猜想：用 algebraic number theory（infinite class field towers + Golod-Shafarevich 1960s 定理）给出 n^(1+δ) 改进 n^(1+o(1)) 的上界，125 页证明经 Tim Gowers 等外部数学家验证，Princeton 的 Will Sawin 进一步把 vanishing 指数改为 fixed exponent。这不是数学专用系统，而是 general-purpose reasoning model 在跨领域工具组合中的产物。
> DeepMind 同步发布 AI-Driven Formal Proof Search 论文：LLM + Lean 自动化闭环在 353 个开放 Erdős 问题中解决 9 个、在 492 个 OEIS 猜想中证明 44 个，单题成本约几百美元，覆盖组合学、优化、图论、代数几何、量子光学等子领域。两条同周线索说明 LLM 在 frontier 数学的产出已经从"辅助"过渡到"独立产生新结果"。
> 架构/训练侧 HF Papers 头部三连：DelTA 给 RLVR 引入 discriminative token credit assignment（当日 192 upvotes 第一）；NVIDIA Gated DeltaNet-2 把 linear attention 的 erase 与 write 拆成通道级独立 gate；Alibaba RTPurbo 证明 full-attention 模型本质已是 sparse，只需百训练步即可转换并取得 9.36× prefill / 2.01× decode 加速。
> 工程基础设施进一步分化：NVIDIA Nemotron 3 Nano Omni 把 Mamba+Transformer hybrid 推到 30B-A3B omni-modal 开放权重；vLLM 本月连发 PegaFlow（外部 KV cache）、VeRL-Omni、TurboQuant、并在 Artificial Analysis 上以 DeepSeek V3.2 / MiniMax-M2.5 / Qwen 3.5 397B 三个部署登顶；DeltaBox 把 stateful agent sandbox 的 checkpoint / rollback 压到毫秒级。
> Coding agent 与平台层进入"可配置 / 可治理"阶段：Cursor Bugbot 引入 Default/High/Custom effort 等级（High 比 Default 多 36% bug 命中率，pre-merge resolve 率 79%），并从 $40/seat 转 usage-based；Anthropic claude-plugins-official 把 plugin 目录标准化为 .claude-plugin/plugin.json + MCP + commands + agents + skills 五段结构，仓库 7 天内从冷启动涨到 27k stars。

详细内容

ENTRY 001/014

[ 数学 · 推理 · OPENAI · AI4SCIENCE · FRONTIERRESEARCH ]

OpenAI 通用 reasoning model 证伪 Erdős 单位距离猜想

(An OpenAI Model Disproves a Central Conjecture in Discrete Geometry)

→ OpenAI · → Gigazine · → autogpt.net

5 月 20 日 OpenAI 披露一个内部通用 reasoning model 在没有数学专用 scaffold 的情况下，给出 Erdős 1946 年提出的 planar unit distance problem 的一族新构造，证明对某固定 δ>0 存在 n^(1+δ) 对单位距离点对，颠覆 Erdős 长期假设的 n^(1+o(1)) 上界以及"square grid 几乎最优"的传统观点。论文使用 algebraic number theory 的 infinite class field towers 与 1960s 的 Golod-Shafarevich 定理，证明经多位外部数学家（含 Fields Medalist Tim Gowers）独立验证，125 页 companion paper 写出，Princeton 的 Will Sawin 把原构造精炼为 fixed exponent。

这条新闻是过去半年 frontier AI 在纯数学领域最具体的一次产出。和 AlphaProof / AlphaGeometry 的 IMO 级别工作不同，单位距离问题在组合几何里被 Brass / Moser / Pach 的 Research Problems in Discrete Geometry 标注为"可能是最广为人知、最易陈述的开放问题"，被 Erdős 本人悬赏，多年来研究主要在常数项收缩，没人能击穿渐近上界。这次的 n^(1+δ) 改进意味着对一个 80 年的渐近瓶颈做出了 polynomial 突破，而不是常数优化。

更重要的是方法路径。证明没有走几何或组合本身，而是借用了代数数论里的 class field tower 与一条 1960s 偏门定理，把"在平面上构造大量等距点对"映射到"构造特殊群塔"。这种跨领域桥接历史上常常依赖少数数学家的直觉，AI 系统在 free-form proof search 中找到这条路径，与"在大量备选工具中持续尝试且能局部理解"高度相关。对 reasoning model 训练而言，这是一次很强的证据，说明长程 reasoning 训练带来的"工具组合能力"已经超过"在熟悉模板内推导"，开始接近真正研究层面的 hypothesis generation。值得注意的是 OpenAI 并未声称模型独立完成全部细节，外部数学家做了 verification 与 refinement，这正是 [[ai-driven-formal-proof-search]] 路线（Lean + LLM 闭环）的实际工作模式——AI 给出建设性构造，形式化或人工验证给出可靠性。

ENTRY 002/014

[ 数学 · 形式化证明 · LEAN · DEEPMIND · AI4SCIENCE · 论文 ]

AI-Driven Formal Proof Search：LLM + Lean 在 353 个 Erdős 问题中解 9 个

(Advancing Mathematics Research with AI-Driven Formal Proof Search)

→ arXiv:2605.22763

DeepMind / Google 联合 Tsoukalas、Wagner、Hubert、Kohli、Chaudhuri 等 19 位作者，提出 LLM + Lean 双闭环 agent：LLM 生成 candidate proof，Lean 做形式化验证，basic agent 与 capable agent 在 353 个开放 Erdős 问题、492 个 OEIS 猜想上分别解决 9 个与 44 个，单题成本约几百美元，覆盖组合学、优化、图论、代数几何、量子光学。

把这篇与上面 OpenAI 的单位距离工作放一起看，frontier lab 正在把"AI 做数学"分成两条互补路线：OpenAI 路线侧重 free-form proof search，让通用 reasoning model 自由组合任何已知工具，靠人工或后置 formalization 验证；DeepMind 路线侧重 LLM + Lean 闭环，在牺牲灵活性的同时把每一步都钉到可机器验证的形式系统里。两条路线的成本结构非常不同——前者依赖少量天才级证明配大量算力 search，后者可以工业化地在数百问题上跑、单题几百美元的可摊销成本。

对研究者，本文给出的具体数字（9/353、44/492）很有参考价值。一方面意味着大多数 Erdős 难题仍超出当前自动化范围；另一方面 9 个解开题已经是过去几年自动化数学的累计水平。对企业级 AI4Science 团队，这套 pipeline 也是一个可复刻 template——把 Lean 替换成 SMT / TLA+ / 形式化定理库，agent 内部仍是 LLM 生成 + verifier 闭环，只是验证器换成行业的形式系统。值得关注的是论文披露在量子光学等"非传统形式化"领域也有产出，说明 Lean 库的现代化扩展已经足以让 AI agent 触达跨学科问题。

ENTRY 003/014

[ LLM · RL · RLVR · DAPO · 后训练 · 论文 ]

DelTA：用 discriminative token credit 给 RLVR 提供精确的局部信号

(DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards)

→ HF Papers · → arXiv:2605.21467 · → GitHub

论文来自人民大学高瓴 AI 学院与 Ant International（Kaiyi Zhang, Wei Wu, Yankai Lin），把 RLVR 中常用的均匀 token-level reward 重新表述为"加权最小二乘 centroid 估计"，再用 discriminative 思想为每个 token 赋予基于 last-layer gradient proxy 的软分配分数。论文在 HF Papers 当日以 192 upvotes 排第一。

RLVR（GRPO、DAPO、PPO-VR 等）已经是 reasoning model post-training 的标准 recipe，但 token-level credit assignment 一直是工程默认值——很多实现把 trajectory-level 的 verifiable reward 平均摊到所有 token，等于假设每个 token 对最终成败的贡献是均匀的。DelTA 的贡献是把这一假设显式建模：先证明现有 RLVR 变体都是 token-weighted centroid 估计的特例，再把 weighting 替换为 discriminative 的 soft assignment，关键 token 拿到更大梯度、辅助 token 被抑制。

这条工作有两个直接价值。第一是工程接入低门槛——论文核心是改 advantage 计算，可以叠加到任何 GRPO/DAPO 实现上，不增加 rollout 成本。第二是和 [[delkv]]、[[mint-million-llm-policies]] 等近期 RL 系统侧工作互补——后者解决 rollout 经济性，DelTA 解决信号利用效率。后训练栈正在从"算法换皮"转向"分摊既有 RL 框架内每个 step 的边际收益"，这种逐 token 加权重新引起关注，与近期 reasoning model 长 trajectory 训练里"少数关键步骤决定全局成败"的观察一致。

ENTRY 004/014

[ LINEARATTENTION · 架构 · NVIDIA · 长上下文 · 论文 ]

Gated DeltaNet-2 (NVIDIA)：把线性 attention 的擦写两步拆成独立通道 gate

(Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention)

→ HF Papers · → arXiv:2605.22791

NVIDIA 的 Ali Hatamizadeh、Yejin Choi、Jan Kautz 提出 Gated DeltaNet-2，沿用 Kimi Delta Attention (KDA) 的 channel-wise decay，但把过去 Gated DeltaNet / KDA 中"擦除旧 key associations"和"写入新 value"共用的 scalar gate 拆成两个 channel-wise 向量 gate $b_t$ 和 $w_t$。HF Papers 117 upvotes。论文在语言建模与长上下文 retrieval benchmark 上报告"最强综合表现"。

线性 attention 的 trade-off 长期是"压缩状态比 softmax 全 KV cache 便宜很多，但写入新关联时常常误擦旧关联"。Delta-rule 和 KDA 用"先减去旧读、再写入新值"以及 channel-wise decay 显著缓和了这一点，但本质上还是一个 scalar 同时控制"擦多少旧"和"写多少新"。这是一个隐含约束——某些通道可能需要保留旧关联但接收新写入，反之亦然，单 scalar gate 无法表达这种 anisotropic 编辑。

Gated DeltaNet-2 的贡献是直接拆开两个 gate，让 erase 与 write 各自按通道独立调节。从工程视角，这对 long-context retrieval 任务尤其有意义——retrieval 头需要 selectively 保留特定 KV 关联同时接收新查询信息，scalar gate 容易在两者之间被迫折衷。NVIDIA 也是过去半年在 linear attention / hybrid 架构上做了大量工作的厂商（Mamba-2、Hymba、Gated DeltaNet 一脉），把 channel-wise 控制做到 erase/write 各一个，是把硬件友好的 recurrent 路径继续推向 softmax-attention 长上下文质量的实验。

ENTRY 005/014

[ LLM · ATTENTION · 长上下文 · 推理优化 · ALIBABA · 论文 ]

Full Attention Strikes Back / RTPurbo：用百训练步把 full-attention 模型转 sparse

(Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps)

→ HF Papers · → arXiv:2605.16928

Alibaba 团队发现已训练的 full-attention LLM 本质上已经稀疏：只有少数 head 真正需要 full long-context、long-range retrieval 主要由 16 维子空间主导、有效 token 预算严依 query 而变。基于此提出 RTPurbo：retrieval head 保留 full KV cache，其它 head 走 lightweight token indexer + dynamic top-p sparsification，仅几百训练步即完成转换，1M context prefill 加速最高 9.36×、decode 2.01×，保持 near-lossless accuracy。

过去一年的 sparse attention 路线大多走两条路：原生 sparse pre-training（NSA、InfLLMv2、MoBA）成本高且不易和现有 ckpt 复用，或者推理期 heuristic eviction（H2O、StreamingLLM 类）准确性常有损耗。RTPurbo 走第三条：承认 frontier full-attention 模型内部本来就已经稀疏，因此只需轻量改造，便宜地把现成 ckpt 转成长上下文 sparse 推理形态。

三条观察值得展开。1. "只有少数 head 真正需要 full long-context"和 [[dashattention]]、KV head clustering 工作一致，说明 head-level 异构是长上下文优化的核心 lever。2. 16 维 retrieval indexer 暗示 long-range 检索的本质维度远低于 attention 本身，是一个工程上可缓存可批量的旁路。3. dynamic top-p 比固定 top-k 更适配 query-dependent budget，呼应近期 attention sparsity 必须按 query 自适应的趋势。9.36× 是 1M context prefill 的极端数字，但即便在 128K 量级也意味着推理成本结构会被改写——很多原本因为成本上限只能上 RAG 的应用，可以转向更长的 in-context retrieval，序列长度的工程意义被重新放大。

ENTRY 006/014

[ 开源模型 · NVIDIA · OMNI · 多模态 · MAMBA · MOE ]

NVIDIA Nemotron 3 Nano Omni：30B-A3B Mamba+Transformer omni-modal 开放权重

(NVIDIA Nemotron 3 Nano Omni)

→ NVIDIA Blog

5 月 21 日发布，30B-A3B hybrid MoE，结合 Mamba 层（序列与记忆效率）和 Transformer 层（精准 reasoning），引入 3D conv 处理 spatio-temporal video 与 Efficient Video Sampling 压缩视觉 token。原生处理文本/图像/视频/音频，单模型替代 vision/speech/language 多模型 stack。在 MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni、VoiceBench 等基准取得"best-in-class"，相对其它 open omni 模型 video reasoning 容量提升约 9.2×、multi-document 任务 7.4×。NVIDIA Nemotron Open Model License 完全开放权重，vLLM/TRT-LLM/SGLang/Ollama/llama.cpp 全栈推理可用。

omni-modal 这条路线过去一年由几家厂商在推：Gemini 2.0/3 早期版本、GPT-4o、Qwen-Omni、MiniCPM-V、Lance（5/20 已收录）等。Nemotron 3 Nano Omni 的差异点在两个方向。一是架构：Mamba+Transformer hybrid 在 30B-A3B MoE 上做 omni，比纯 Transformer baseline 在长上下文视频和音频的 token 经济性上更优，这与 NVIDIA 一年多在 hybrid 架构（Hymba、Nemotron-H）上的累积一致。二是部署 surface：开放权重 + vLLM/TRT-LLM/SGLang/Ollama/llama.cpp 全栈兼容，意味着这是一款企业可下载、可自托管的 omni 模型，不是 API only。

9.2× video / 7.4× multi-doc throughput 的数字主要受益于 Efficient Video Sampling 与 hybrid 架构的常数显存。omni 模型的瓶颈早就不在质量，而在"一段 30 分钟视频 + 多个文档 + 实时音频"复合上下文的 serving 经济性。Nemotron 3 Nano Omni 把 throughput 拉到与其它 open omni 模型差 7-9 倍的位置，使它对那些不能用闭源 API（合规、数据驻留）的医疗影像、文档处理、视频分析等垂直场景比较具吸引力。和 Lance 的 ByteDance 路线对比，Nemotron 偏 enterprise stack 友好，Lance 偏开源研究 baseline，二者填补不同的生态位置。

ENTRY 007/014

[ 3D生成 · WORLDMODEL · EMBODIEDAI · 物理仿真 ]

PhysX-Omni：把 3D 生成结果直接调度到物理仿真

(PhysX-Omni: Unified Simulation-Ready Physical 3D Generation)

→ HF Papers · → arXiv:2605.21572

论文统一 rigid、deformable、articulated 三类物理 3D 物体的生成，输出可直接送入物理仿真器，不需要额外重 mesh / 标注材质 / 估物理参数等后处理。HF Papers 89 upvotes。

3D 生成上一波（Genie、CAT3D、Trellis、Hunyuan3D 等）多数把目标定在视觉质量与几何合理性，物理属性常被当作下游团队的 retargeting 任务。但任何想用 3D 生成结果驱动机器人、仿真训练或 embodied agent 的团队，都会撞上"生成的物体不能直接放进 Isaac Gym / MuJoCo / Bullet"的问题：质量分布缺失、碰撞 mesh 不闭合、关节 / 软体参数不存在。

PhysX-Omni 的"simulation-ready"标签是这一类工作里相对少见的明确承诺。把 rigid / deformable / articulated 三类用同一框架统一处理意味着用户不需要为不同物体类型走不同生成 pipeline，更重要的是输出可以直接喂给现有物理引擎跑动力学 rollout。这条路线和 [[physbrain]]（5/18 收录的物理属性预测世界模型）形成互补——前者给"如何生成可仿真的物体"，后者给"如何理解已有场景的物理属性"。两条加起来，embodied AI 训练数据生成的物理桥接才算完整。

ENTRY 008/014

[ AGENT · SANDBOX · OS · RL · 基础设施 · 论文 ]

DeltaBox：毫秒级 sandbox checkpoint / rollback for stateful agents

(DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback)

→ arXiv:2605.22781

论文（Yunpeng Dong 等，cs.OS）针对 stateful agent 需要在 deep tree search / RL training 中频繁分支与回滚的需求，提出 OS 级 delta-based checkpoint 机制，把 sandbox 状态的快照与恢复压到毫秒级，支持深度树搜索与 agent RL 的高并发 rollout。

agent RL 的瓶颈正在从模型本身向运行环境扩散。一条 GRPO/DAPO 轨迹里每个 step 可能调用 shell、写文件、修改数据库，多 rollout 时需要"克隆当前 agent state、各自走不同 branch、收集对比信号"。常见实现要么用 process fork（隔离不够），要么用 Docker snapshot（秒级，太慢），要么放弃分支只跑串行（rollout 数量受限）。DeltaBox 把这一层做到毫秒级 delta，意味着 tree search / Monte Carlo 类 agent 算法在真正的 stateful 环境（含文件系统、数据库连接、运行进程）里变得可行。

这和 [[skillsvote]] / [[envfactory]] / [[mint-million-llm-policies]] 一起，构成 agent 后训练的环境层。模型侧的训练算法越来越成熟，但能否真正 scale 取决于环境是否 cheap to reset、cheap to fork、cheap to verify。DeltaBox 把 reset / fork 的成本拉到毫秒级，是这一栈中 OS-level 缺失环节。对自建 agent RL pipeline 的团队，这种工具往往是隐性瓶颈——一旦解决，单卡能跑的 rollout 量级可以提升一两个数量级。

ENTRY 009/014

[ 推理 · VLLM · KVCACHE · 量化 · RL · 开源 ]

vLLM 5 月技术栈：PegaFlow / VeRL-Omni / TurboQuant / Artificial Analysis 第一

(vLLM May 2026 Stack Updates)

→ vLLM Tops Artificial Analysis (May 11) · → vLLM Blog Index

vLLM 在 5 月连发四篇技术博客：(1) vLLM Tops Artificial Analysis Leaderboard（5/11），在 DeepSeek V3.2、MiniMax-M2.5、Qwen 3.5 397B 三个高热模型部署上同时拿第一；(2) TurboQuant comprehensive study（5/11）首次系统报告 KV-cache 低 bit 量化的精度/吞吐 trade-off；(3) VeRL-Omni（5/14）把 vLLM 后训练扩到 diffusion / omni-modal RL；(4) PegaFlow（5/18）以独立 Rust 进程提供 production-grade 外部 KV cache 服务，与 vLLM 双向集成。

vLLM 已经从"OSS 推理框架"扩成完整的 serving + post-training + KV cache 生态。Artificial Analysis 排名最直接——三个旗舰开放模型的最快部署都是 vLLM，意味着对自建 inference 的团队，frontier 开放模型默认 stack 已经收敛。PegaFlow 是更值得关注的工程信号：长上下文 + 多租户 + 高 QPS 场景下，KV cache 不能再放在 worker 进程内存里，必须有一个外部、可持久化、可跨节点 share 的服务，而 PegaFlow 用 Rust 独立进程做这件事，等于把 KV cache 从"GPU 显存附属"升级为一类"独立的数据服务"。

VeRL-Omni 把 vLLM 的 rollout 引擎扩展到 diffusion 与 omni-modal，是和 NVIDIA Nemotron Omni、Lance 等模型形成训练-服务闭环的关键。TurboQuant 的低 bit KV-cache 量化补齐了显存压力链路。整体看，vLLM 这条线和闭源 frontier 厂商的 inference 优化路径越来越像——只是开源化、组件化、多 vendor 都能用。这对 Anthropic Stainless / OpenAI Tooling 等闭源平台是一个生态压力源：自建团队的差距正在缩小，频繁更新的 vLLM 已经能复刻很多 frontier inference 工程。

ENTRY 010/014

[ CODINGAGENT · CURSOR · PRREVIEW · 定价 · AGENT ]

Cursor Bugbot Effort Levels：把 PR review agent 转 usage-based 并暴露 quality/cost 旋钮

(Updates to Bugbot for Teams and Individuals)

→ Cursor Bugbot Updates Blog · → Cursor Changelog · → Start Debugging analysis

5 月 11 日 Cursor 给 Bugbot 引入三档 effort：Default（0.7 bugs/review 平均、79% pre-merge resolve）、High（0.95 bugs/review，相对 Default +36% 命中、token & latency 显著上升）、Custom（用自然语言描述何时升档）。同时整体计费从 $40/seat/month 订阅切到 usage-based（约 $1.00–1.50/run，按 PR 复杂度），现有年度订阅在下次续费（6/8 之后）才转新模型。

这是 coding agent 行业第一次公开把 review 类 agent 的"算力 vs bug 命中率"做成显式产品参数。过去 PR review agent（Bugbot、CodeRabbit、Greptile 等）大多隐藏 reasoning budget，让用户只能整体感受"找 bug 多/少"。Cursor 把它拆成三档，并给出 +36% bug 命中需要付出的 token / latency 代价的具体数字，等于把 reasoning effort 的边际收益变成可以审计的指标。

从订阅切 usage-based 是更结构性的变化。$40/seat 的订阅意味着 vendor 必须承担用户 PR 频率不可控的成本风险，因此往往会在背后压低 effort 等级来保毛利；切到 $1-1.5/run 后，effort 和成本完全透明，Bugbot 也可以推 High 档而不担心毛利亏损。这种定价转型几乎一定会复制到其它 coding agent 上——Codex、Claude Code、Devin 都已经在试 seat + usage 混合，[[mint-million-llm-policies]] 之类的策略目录基础设施也是为同一趋势准备。对开发团队的实际影响是：未来一年 coding agent 预算会从"团队 seat 数"变成"每月 review 次数 × effort 等级"，预算管理工作量上升，但单次 review 的真实成本第一次可以被量化对比。

ENTRY 011/014

[ ANTHROPIC · PLUGIN · CLAUDECODE · MCP · 生态 ]

Anthropic 把 Claude Plugins 目录标准化为官方 plugin marketplace

(claude-plugins-official)

→ anthropics/claude-plugins-official

仓库定义统一 plugin 文件结构：.claude-plugin/plugin.json（必填元数据）+ 可选 .mcp.json（MCP server 配置）+ commands/（slash command）+ agents/（agent 定义）+ skills/（skill 定义）+ README.md。/plugins 收录 Anthropic 自研，/external_plugins 收第三方提交；安装语法 /plugin install {name}@claude-plugins-official。仓库一周内涨到约 27k stars、+2.2k stars 当日，405 commits，列入 GitHub Python 日榜首位。

这条不是单纯的 GitHub trending 事件，而是把 Claude Code / Claude.app 的 plugin 形态正式统一进一个 schema。过去半年 Claude 平台同时支持 MCP、Slash Commands、Skills、Subagents 四类扩展，但没有公开的 packaging 标准，开发者要写四份说明、四套安装路径。.claude-plugin/plugin.json + 四个目录的结构等于把这些扩展点合并成一个 plugin 概念，类似 VSCode extension manifest 之于编辑器扩展。/plugin install foo@claude-plugins-official 是 npm-like 寻址，把 plugin 集成做成单命令。

仓库一周内 27k stars 是不寻常的——这种增速通常只在主流社区已经形成"plugin 平台必然出现"共识后才会发生。MCP 在 2025 年定义协议、2026 年 Q1 大量厂商发布 MCP server，这次 plugin 目录是把"server / skill / agent / command 分散的扩展点"封装成可发现、可审计、可一键安装的资产层。对 Claude 生态而言，意味着竞争点从"哪家厂商 MCP server 多"转向"哪家在 Anthropic 官方目录里被推荐、被审核、被默认安装"。对开发者，下一阶段值得关注的是 plugin 之间的依赖、版本、安全审查策略，这通常是 plugin marketplace 走向成熟的下一个矛盾点。

ENTRY 012/014

[ 健康AI · 基础模型 · 多模态 · 时序 · AI4SCIENCE ]

可穿戴健康基础模型：1 万亿分钟 sensor data + 500 万参与者

(Towards a General Intelligence and Interface for Wearable Health Data)

→ arXiv:2605.22759

Girish Narayanswamy 等提出一个 foundation model，用 5 百万参与者、1 万亿分钟可穿戴 sensor 数据预训练，覆盖 35 个 few-shot 临床任务（心律、睡眠、活动、血氧、压力等）。模型在 multitask few-shot 设置下被报告显著超过专门为每个任务训练的小模型。

可穿戴健康长期是"小数据集 + 单任务模型"的领域，每个 wearable 厂商围绕自家 sensor + 几千到几万受试者训练独立模型。1T 分钟、5M 参与者级别的预训练在该领域第一次出现，意味着 foundation model 范式正式从 NLP/CV 扩到 personal sensor data。35 个 few-shot 临床任务覆盖了大部分实用场景，从心律检测、睡眠分期到活动识别和血氧推断。

把这条与 [[toto-2-time-series]]（Datadog 时序基础模型）一起看，2026 年时序 foundation model 的格局正在快速成形。Toto 服务 observability 时序，TimesFM 服务通用 forecasting，本文服务 wearable health。每条路线的数据壁垒不同（Datadog 来自 observability，Apple/Fitbit 类公司来自消费 wearable，本文似乎来自学术合作或大型健康队列），但训练 recipe 越来越共享——大规模时序数据 + 统一 sequence encoder + 多任务 head。对医疗 AI 团队，这开启了"先用通用 wearable foundation model，再 fine-tune 到具体诊疗任务"的路径，原来必须为每个临床应用单独立项的模式可能会被改写。

ENTRY 013/014

[ AGENT · SELFEVOLUTION · SOURCECODE · AI4SE ]

MOSS：让 agent 在执行中改写自己的源代码

(MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems)

→ arXiv:2605.22794

论文（Qianshu Cai 等，cs.AI）提出 MOSS，让 agent 在部署期通过自我修改源代码来演化能力，报告四任务平均 grader 分数在单轮自我演化中从 0.25 上升到 0.61。

agent self-improvement 历来有两条主流路径：fine-tune 模型参数（Voyager / Hexagen），或更新外部 memory / skill 库（[[skillsvote]]、Reflexion）。MOSS 走第三条——直接改写 agent 本身的 Python / TypeScript 源代码，等于把 agent 的"代码 = 行为"看成最终的可学习对象。从 0.25 到 0.61 的 grader 提升是一个非常大的相对收益，前提是单轮演化、固定任务。

这条路线在工程上的风险显而易见：agent 可能改坏自己、可能引入安全漏洞、可能在多 agent 协作时漂移到不兼容的接口。但优势同样明显——LLM 已经擅长写代码，与其让它通过 prompt / memory 间接影响行为，不如让它直接修改自身实现。在闭环 review / sandbox / rollback（参考 [[deltabox]]）配合下，self-rewriting agent 是一种相对"语义清晰"的 self-improvement。这条研究路线和 OpenAI 数学突破中的 reasoning model 跨工具组合能力一脉相承——agent 的能力提升越来越来自系统层的可重写性，而不只是 prompt 层的 hand-tuned scaffold。

ENTRY 014/014

[ DEEPSEEK · 定价 · API · 开源模型 ]

🔄 进展更新：DeepSeek V4 Pro 永久维持降价定价

(DeepSeek Makes the V4 Pro Price Discount Permanent)

→ DeepSeek Pricing Docs · → HN 讨论

DeepSeek 把此前作为节日促销的 V4 Pro 降价正式确认为永久价格。HN 当日 441 pts、250 comments，主要讨论焦点在 API 经济学和对 closed-frontier 厂商的定价压力。

收录这条不是因为价格本身（属于商业话题），而是因为它与 DeepSeek V4 系列（已在 5/22 收录的 CSA+HCA 架构）一起构成完整生态信号：模型质量先到位，再用永久低价巩固 API 用户。对自建 agent 团队而言，这一价格固定意味着可以把 DeepSeek V4 Pro 当作"长期可预算的 frontier-class 后端"，而不是观察性接入。叠加 vLLM 在 DeepSeek V3.2 上做 Artificial Analysis 第一部署，DeepSeek 这一周的 vendor 位置已经从"开源模型 + 间歇 API"变成"开源权重 + 工业级自建推理 + 永久 API 降价"三足并立，对 Anthropic / OpenAI 的中端定价层是直接竞争。

其他值得关注

LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems (arXiv:2605.22786) — arXiv
Vector Policy Optimization: Training for Diversity Improves Test-Time Search (arXiv:2605.22817) — arXiv
Tokenisation via Convex Relaxations (arXiv:2605.22821) — arXiv
Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving (arXiv:2605.22809) — arXiv
WorldKV: Efficient World Memory with World Retrieval and Compression (arXiv:2605.22718) — arXiv
SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation (arXiv:2605.22668) — arXiv
π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows (arXiv:2605.14678) — arXiv
TransitLM: Map-Free Transit Route Generation (arXiv:2605.22355) — arXiv
Models.dev: Open-source database of AI model specs, pricing and capabilities — GitHub — GitHub
TencentARC Pixal3D Space — HF Spaces — HF Spaces
HuggingFaceBio/carbon-demo (Life Sciences) — HF Spaces
Show HN: Deputies, open-source background agent — HN — HN
Show HN: Statewright, visual state machines for AI agent reliability — HN — HN
Signadot /signadot-validate skill for Claude Code / Codex / Cursor (May 12) — SiliconANGLE
Anthropic 与 Gates Foundation $200M 4 年合作（健康/教育/经济流动） — Anthropic — Anthropic
Anthropic + PwC 全球展开 Claude Code / Cowork，培训 3 万 PwC 员工 — Anthropic — Anthropic
OpenAI 与 Dell 联合把 Codex 带到混合云 / 本地企业环境 — OpenAI News — OpenAI News
Unsloth 正式加入 PyTorch Ecosystem — Unsloth — Unsloth
Microsoft 报告 AI 推理成本仍高于雇佣人类员工 (HN 225 pts) — Fortune

← 2026.05.22 2026.05.29 →