一日三饭 | HARNESS

← /harness

════ 2026.05.06 ════

今日要点

> Google 公开 Gemma 4 Multi-Token Prediction Drafter——speculative decoding 全家族 SKU 标配化：5/5 Google Developers Tools 工程博客发布 Gemma 4 全 SKU（E2B / E4B / 26B-MoE / 31B-Dense）配套 MTP drafter，3× 推理加速且 quality 无损；drafter 与 target model 共享 KV-cache、复用 target 中间层激活、edge SKU 用 cluster embedder。实测：Gemma 4 26B 在 NVIDIA RTX PRO 6000 上延迟 -50%、Apple Silicon batch 4-8 上 ~2.2×。Apache 2.0 + Hugging Face Transformers / MLX / vLLM / SGLang / Ollama / LiteRT-LM 全栈 day-0 支持，Android / iOS 端通过 Google AI Edge Gallery 部署。把"frontier 模型自带 speculative drafter"从 OpenAI / Anthropic 私有 inference stack 推成开源默认配置。
> Anthropic Claude Finance Agents + Microsoft 365 add-ins 全面发布：5/5 Anthropic 推出 10 个 ready-to-run agent templates——pitchbook builder / KYC screener / month-end closer / GL reconciler / earnings reviewer / model builder 等，覆盖投行 / 资管 / 保险三大场景。Claude 原生进入 Excel / PowerPoint / Word / Outlook——上下文跨应用自动持续，分析师在 Excel 建模型 / 切到 PPT 出 deck 不必重述背景；Vals AI Finance Agent 基准 Opus 4.7 拿 64.37% SOTA。Claude Cowork 插件 + Managed Agents 双部署模式，新增 Dun & Bradstreet / Fiscal AI / Moody's MCP / IBISWorld 等 connector，Citadel / FIS / Walleye Capital / Carlyle / Travelers 客户验证。这是 frontier 厂商把"agent 嵌入垂直行业 SaaS"做到 Microsoft 主战场的第一次完整落地。
> PRISM / 多模态 RL 预对齐：在 SFT 与 RLVR 之间插入 black-box on-policy distillation（HF Papers 34↑，HKUST(GZ) + Tsinghua + NTU 等）：诊断当前 LMM 后训练 recipe 痛点——SFT 引入分布漂移让 RLVR 后训练放大 perception / reasoning 错误；提出三阶段 pipeline，把对齐建模为 policy 与 MoE discriminator（perception expert + reasoning expert）的对抗 game，不需要 teacher logits（对闭源 frontier teacher 的兼容性大）。1.26M 公开 demos 做 SFT init、113K 从 Gemini 3 Flash 蒸馏的高保真 demos 做对齐。这条 recipe 把"SFT-then-RL"打开成"SFT → 黑盒蒸馏对齐 → RLVR"三段式，对所有正在做开源 multimodal 模型 post-training 的团队（Qwen-VL / InternVL / GLM-V）是直接可借鉴的方法学。
> ARIS + HeavySkill：Agentic harness 在"研究自动化"与"内化 heavy thinking"两条路线同周开源：ARIS（HF Papers 59↑，SJTU + 上海创新研究院）公开 ML 研究 agent 框架——65+ Markdown 定义 skill、跨模型 adversarial review（执行模型 + 不同家族的 reviewer 模型）、persistent research wiki、deterministic figure 生成、五条 end-to-end workflow，针对长程研究 agent 的核心失败模式 "plausible unsupported success"。HeavySkill（HF Papers 22↑，Meituan LongCat 美团团队）则反其道——把 heavy thinking 不再当编排层最小单元而是模型参数内化的内嵌 skill（parallel reasoning → summarization 两阶段），用 RL scale 其 depth / width；实证持续超 Best-of-N、stronger LLM 可逼近 Pass@N。两条同周路线分别代表"把 agent 能力外化到 harness"与"把 agent 能力内化到 weight"的对位选择。
> Bytedance Kronos / SymptomAI 双案例：领域 FM 与 conversational agent 在金融 / 医疗的 production 落地：Kronos（GitHub +540 daily / 23k stars，AAAI 2026 接收）是首个金融 K 线开源 foundation model——4.1M 至 499.2M 四档参数，hierarchical 离散 tokenizer 把 OHLCV 转为 token，decoder-only 自回归 transformer 预训练于 45+ 全球交易所；BTC/USDT 24h 实时预测 demo + A 股 top-K 回测全部开源。SymptomAI（arXiv 2605.04012）通过 Fitbit app 13,917 人 RCT部署 5 种 AI agent，1,228 人临床确诊子集 + 517 对话由医师 250+ 小时标注；**OR=2.47, p<0.001 显著超过同样对话条件下的独立医师**，dedicated symptom interview 显著优于 user-guided 路线，wearable 500K+ 天数据捕到 H1N1 OR>7 的强生理关联。两条把"领域 FM + 真实大规模 RCT"作为 2026 春天 frontier model 落地的标志案例。

详细内容

ENTRY 001/012

[ GOOGLE · GEMMA · 推理优化 · SPECULATIVE-DECODING · 开源 · APACHE2.0 ]

Google Gemma 4 Multi-Token Prediction Drafter：speculative decoding 标配化与 Apache 2.0 全家族

(Accelerating Gemma 4: Faster Inference with Multi-Token Prediction)

→ blog.google MTP Gemma 4 · → HN 讨论

5/5 Google Developers Tools 团队发布 Gemma 4 全家族 multi-token prediction drafter——为 E2B / E4B 边缘 SKU、26B MoE、31B Dense 各配一个轻量 drafter 模型，以 speculative decoding 加速 inference。机制：drafter 一次预测多个 future token、target model 并行 verify——若 target 同意 draft，则一次 forward 接受整段 + 多生成一 token，等于"一个 forward 输出多 token"。架构亮点：drafter 复用 target 模型激活、共享 target KV-cache 不重算 context、edge SKU 用 cluster 化 embedder 压参数。实测加速：整体上限 3× 速度提升、quality 无损；Gemma 4 26B 在 NVIDIA RTX PRO 6000 上延迟降 ~50%、Apple Silicon batch 4-8 跑出 ~2.2×；同样优化也在 H100 / A100 上看到显著收益。部署面：Apache 2.0 + Hugging Face Transformers / MLX / vLLM / SGLang / Ollama / LiteRT-LM 全栈 day-0 集成；移动端通过 Google AI Edge Gallery 落到 Android / iOS。已知限制：性能依赖 hardware 与 batch size 调优，特别 26B MoE 在 Apple Silicon batch=1 收益小；quality 完全依赖 target model 的 verify 步骤（drafter 错误会被吞）。

Gemma 4 MTP drafter 的真正信号不在 "3× 速度提升" 这条数字（speculative decoding 已被 OpenAI / Anthropic 内部使用 18 个月），而在 Google 把 drafter 作为模型权重的 first-class 配套发布并 Apache 2.0 全家族开源。过去开源社区的 speculative decoding 路径是 (a) 手动配 drafter——用户自己挑一个小模型（Llama-3-1B 给 Llama-3-70B 当 drafter）、调参对齐 distribution；(b) vLLM / TGI 自带 EAGLE / Medusa 头——但 head 训练数据、对齐质量参差不齐，社区基准报告 1.5-2.5× 加速但质量可能掉点。Google 这条路把 drafter 当模型 release 的 mandatory 配件，等于把 frontier vendor 私有 inference 优化下沉到开源生态——配合 4/29 vLLM v0.20.0、4/24 SGLang Day 0 框架升级、4/22 NVIDIA NVFP4 全家族支持，2026 春天开源推理栈正在对齐 frontier 厂商私有 stack 的工程标准。

这条工程主张对正在自托管 LLM 的团队有三条直接含义。第一，今后开源模型的"是否带 drafter"会成为部署评估新维度——只看 raw weight quality 不够，drafter 配套质量决定生产 throughput。Gemma 4 MTP 这条做法之后，下一代 Llama / Qwen / DeepSeek / Mistral 大概率都会跟进自配 drafter（DeepSeek V4 已在 V3.2 时代开始尝试 multi-token loss，Kimi K2.6 也在内部跑 MTP 实验）。第二，MoE drafter 在 Apple Silicon batch=1 收益小这条 caveat 揭示边缘部署的根本约束——MTP 通过并行 verify 摊销 memory bandwidth，单 batch 下 verify 阶段无法摊销，反而因 drafter 的额外计算略亏。这条对 Apple / Qualcomm / AMD edge AI 的产品定位有现实意义：端侧 LLM 的下一代加速可能不是 MTP 而是 weight quantization + scheduler 优化（NVFP4、INT4、KV-cache 压缩）。第三，3× 上限 vs 实际 2-2.2× 之间的差距指向 token-level acceptance rate 的不可避免上限——drafter 的 prediction 不可能 100% 被 target 接受，real-world workload 的 acceptance rate 通常 60-75%，对应实际加速 2-2.5×；3× 是理论 best case 而非典型生产数字。

Google 在 4/30 Gemini 3.1 Flash TTS / 4/30 Gemini 3.1 Flash Lite + 5/5 Gemma 4 MTP 这条三周节奏揭示 Google AI 的 release 策略——frontier (Gemini 3.1 Pro) + 中端云 (Gemini 3.1 Flash / Flash-Lite) + 开源 edge (Gemma 4 + MTP) 三档同步推进，每档都给出工程优化点（Flash TTS 的 SynthID 水印、Flash-Lite 的 $0.25/$1.50 极致定价、Gemma 4 MTP 的 3× 加速）。这条三档对位结构是 OpenAI（GPT-5.5 / GPT-5.5 Instant / 无开源）与 Anthropic（Opus 4.7 / Sonnet 4.6 / 无开源）目前都不具备的——意味着 Google 在"开源生态 + 商用 API + frontier"三线并进，长期对企业客户的"vendor 不锁定"承诺最强。需要冷静读：Gemma 4 MTP 的"全家族 drafter"对实际 throughput 的提升幅度仍依赖具体 workload——长 prompt + 短 response（如 RAG 查询）受益较弱，长 response（如代码生成、长文写作）收益最大；企业选型应在自家典型 prompt 分布上做小规模 benchmark 而非依赖 3× 头条数字。

ENTRY 002/012

[ ANTHROPIC · CLAUDE · 金融 · MICROSOFT365 · AGENT · OPUS4.7 ]

Anthropic Claude Finance Agents + Microsoft 365 add-ins：10 templates × Excel/PPT/Word/Outlook 落地

(Agents for Financial Services and Insurance)

→ Anthropic 公告 · → HN

5/5 Anthropic 公开 Claude Finance Agents 与 Microsoft 365 集成，配合 4/24 Claude Opus 4.7 GA + 5/4 Claude Security 公开 beta + 5/4 新 AI 服务公司一起形成春天最完整的"frontier × 垂直行业"产品序列。10 个 ready-to-run agent templates：研究 / 客户覆盖侧——pitch builder（target list / comparable / pitchbook）、meeting preparer（client / counterparty 简报）、earnings reviewer（财报抄写 + 模型更新）、model builder（从 filing 出财务模型）、market researcher（行业追踪）；finance / operations 侧——valuation reviewer、GL reconciler（NAV 计算）、month-end closer（结账 checklist + 日记账 + 报告）、statement auditor、KYC screener。Microsoft 365 原生 add-ins：Claude 进 Excel / PowerPoint / Word / Outlook，跨应用上下文自动持续——分析师在 Excel 建模 / 切到 PowerPoint 出 deck 不必重述背景；Outlook 像"chief of staff"分类邮件、安排会议、起草回复。部署模式：(a) plugin 模式跑在 Claude Cowork / Claude Code，与分析师并行；(b) Managed Agents 公开 beta，long-running session + credential vault + 全程 audit log。新连接器：Dun & Bradstreet（业务身份）、Fiscal AI（实时股票基本面）、Financial Modeling Prep、Guidepoint（专家访谈）、IBISWorld、SS&C IntraLinks、Third Bridge、Verisk、Moody's MCP（6 亿公司信用 / 数据）。基准：Opus 4.7 在 Vals AI Finance Agent benchmark 拿 64.37% SOTA。客户：Citadel（"Claude for Excel meets analysts there with step-change efficiency"）、FIS（AML 调查 agent "days to minutes"）、Walleye Capital（100% 员工用 Claude Code）、Carlyle（key part of AI tech stack）、Travelers（"significantly elevated levels of engineering excellence"）。

Claude Finance Agents + M365 add-ins 是第一条把 frontier agent 直接嵌进 Microsoft 生态主战场的产品——过去 18 个月企业 AI 的 Office 集成由 Microsoft Copilot 一家垄断（GPT-4 / GPT-5 系列 + Microsoft 自家 grounding），Anthropic 直接进 Excel / PowerPoint / Word / Outlook 是对 Copilot 工作流的正面争夺。这条产品形态的工程含义远超表面——Anthropic 不再只是 Claude API vendor，而是直接卡进 enterprise 用户每天 8 小时所在的 Microsoft 应用界面。配合 4/27 OpenAI Symphony（Linear issue tracker 作 control plane）、4/29 Anthropic Memory for Managed Agents（filesystem-mounted 记忆）、5/4 新 AI 服务公司（Blackstone + Goldman 配 mid-market 实施团队），Anthropic 在春天完成了"模型 + 编排 + 记忆 + 行业 SKU + 实施服务"完整 stack 的最后一环。

10 templates 的具体设计值得拆开看。这不是"通用 agent + finance prompt"——每个 template 打包了三层：skill（领域知识，如 KYC 调查的合规清单 / month-end close 的会计准则）、connector（Dun & Bradstreet / Moody's MCP 等数据源 governed access）、subagent（comparable selection / methodology check 的专精 Claude 模型）。这条结构和 4/27 OpenAI Symphony "RFC 2119 spec + per-issue workspace" 的工程主张是同一根工程哲学的不同表达——把 agent 工作流 spec 化、把 capability 模块化、把 deployment 标准化。Citadel "step-change efficiency"、FIS "days to minutes"、Walleye Capital "100% 员工用 Claude Code" 这三条客户引用让"agent 已替代多少分析师工作流"从抽象主张变成具体公开数据点——这条转变速度远超过去任何一波企业 AI 浪潮（CRM / ERP / RPA 的渗透曲线都以年为单位、Claude 的渗透曲线在 quarter 级）。

**M365 add-ins 的"跨应用上下文持续"**这条产品决策值得标记。当前 Microsoft Copilot 在 Excel / PowerPoint / Word 之间的 context 共享靠 Microsoft Graph + Copilot Cloud——但这条数据通道完全在 Microsoft 控制下、第三方 frontier model 无法直接使用。Anthropic 选择通过 add-ins 路径绕过 Microsoft Graph、自建跨应用 context layer——意味着 Anthropic 在 Microsoft 应用内运行但 context 持久化到 Anthropic infra。这条工程选择对企业 IT 治理是关键问题：用 Claude 做 Excel 建模，公司财务数据是否流向 Anthropic？ Anthropic 的回应是 Managed Agents + credential vault + audit log——但这条 vendor lock-in 与 4/30 Apple CLAUDE.md 泄漏后曝光的 "Apple 在自家 server 跑 customized Claude 让 code/docs/tokens 不出 infra" 形成对比。对企业 AI 架构师：评估 Claude Finance Agents 时必须把 "context 流向 Anthropic vs 留 Microsoft" 作为核心 governance 维度，与 4/2 OpenAI 上 AWS Bedrock 同款的"是否走云原生 IAM"决策一并 review。需要冷静读：Vals AI Finance Agent benchmark 64.37% 这条数字——榜单本身的覆盖广度（多少种金融任务、多少 head-to-head 对比）和测试方法学（pristine vs contaminated）都没在 Anthropic 公告中具体披露，独立验证需要等 Vals AI 自己发布 leaderboard 细节。

ENTRY 003/012

[ 论文 · 多模态 · 后训练 · RL · 蒸馏 · 开源 ]

PRISM：在 SFT 与 RLVR 之间插入黑盒蒸馏对齐——多模态后训练 recipe 升级

(Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL)

→ HF Papers 2604.28123 · → arXiv:2604.28123

Sudong Wang / Weiquan Huang / Xiaomin Yu 等 12 作者跨 6 机构，5/5 提交。问题诊断：当前 LMM 后训练 recipe = SFT on curated demos → RLVR——SFT 引入分布漂移既不保留 base 能力也不忠实匹配 supervision 分布；多模态场景下 perception 错误与 reasoning 失败漂移模式不同、在后续 RL 中复合放大。PRISM 三阶段 pipeline：在 SFT 与 RLVR 之间插入显式分布对齐阶段。基于 on-policy distillation (OPD) 原则，把对齐建模为 policy 与 MoE discriminator（perception expert + reasoning expert）的 black-box / response-level 对抗 game——分别给 perception 与 reasoning 两路解耦 corrective signal，把 policy 推回 supervision 分布而不需要 teacher logits。数据：1.26M 公开 demos 做 SFT init、113K 从 Gemini 3 Flash 蒸馏的高保真 demos（dense visual grounding + step-by-step reasoning）做对齐——alignment 阶段对 demo 质量要求显著高于 SFT。意义：对所有用闭源 frontier 当 teacher 的开源 multimodal 后训练（Qwen-VL / InternVL / GLM-V / Molmo / LLaVA 系）是直接可用的方法学——不需要 teacher logits 大幅降低对 frontier vendor 接口的依赖。

PRISM 的核心贡献不在 "MoE discriminator" 这条具体架构（discriminator + adversarial training 路径在 GAN 时代到 IRL / preference learning 时代有大量先验），而在它正式承认"SFT-then-RL"标准 pipeline 在多模态场景下存在结构性故障——SFT 单步引入的分布漂移会被后续 RLVR 系统性放大。这条诊断与 4/30 IBM Granite 4.1 公开"RLHF 损害数学后专门 recovery 阶段"的工程实证、4/26 Anthropic Claude Code Postmortem "system prompt 微调引发 capability regression"、5/5 OpenAI goblin postmortem "Nerdy personality reward 跨条件传染" 形成同一根问题的多个截面：当前 frontier post-training pipeline 的每个微小步骤都在引入难以察觉的副作用，而下游评估机制不足以捕捉。PRISM 把这条问题重新框定为"SFT 的分布漂移本身就是后续 RL 的中毒原因"，建议在两者之间插入对齐阶段——这条 reframe 比单纯 patch（recovery / sweep / 黑名单）更结构化。

"black-box on-policy distillation 不需要 teacher logits" 这条工程设计是 PRISM 真正可立即落地的部分。过去 distillation-based alignment 路径（DPO 类 + MiniLM / TinyLlama 系列）通常需要 teacher 的 token-level logits 或至少 response-level scoring——这条要求让闭源 frontier teacher（Gemini / Claude / GPT）很难成为对齐源。PRISM 把蒸馏退化为 response-level 对抗 game——只用 teacher 生成的 response 而不要 teacher 内部信号——意味着任何能产生高质量 response 的 frontier API 都可作为 teacher。这条对资源有限的开源团队是关键 unblock：用 Gemini 3 Flash / Claude Sonnet 4.6 / GPT-5.5 Instant 当 teacher 蒸馏到自己的 8-30B 多模态模型，整条 pipeline 不需要 teacher 提供任何特权数据。113K 高保真 demos 这条规模也很现实——比 1.26M SFT 数据小一个数量级，意味着对齐阶段的成本是 SFT 的 ~10%。

MoE discriminator 把 perception / reasoning 信号解耦这条设计思路与 4/29 Tuna-2 "encoder-free single transformer 直接吃 patch embedding" 是对位选择——Tuna-2 主张去除模态边界让单一 backbone 自然处理多模态，PRISM 主张在训练信号侧显式拆分模态特定的 corrective signal。两条路线都不算错——Tuna-2 适合 from-scratch 训练新 multimodal 基座，PRISM 适合给已有多模态模型做 post-training。对正在做 multimodal RLVR 的团队：(a) 立即在自家 SFT → RL pipeline 中加 ablation 看 SFT 分布漂移大小（KL(π_SFT || π_demo) 在 perception / reasoning subset 上分别测）；(b) 如果漂移显著，按 PRISM 路线插入对齐阶段、用 frontier teacher 生成 100K 级高保真 demos 做 OPD；(c) 如 PRISM 论文未公开训练超参，等 GitHub release 再决定是否复现完整 stack。需要冷静读：论文摘要未公开 final benchmark 数字（VQA / MMMU / MathVista / OCR / GUI Bench 等多模态评测的具体提升），独立可信度等代码与全文 release。Hugging Face Papers 34 投票排在第二位（仅次于 ARIS 59）反映社区对"SFT 分布漂移"诊断的高共鸣度——多家做 multimodal post-training 的团队最近都在内部遇到同款问题。

ENTRY 004/012

[ 论文 · SJTU · SII · 研究自动化 · AGENT · CROSS-MODEL · 开源 ]

ARIS：跨模型 adversarial 协作的 ML 研究 agent harness——Plausible Unsupported Success 的工程对策

(ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration)

→ HF Papers 2605.03042 · → arXiv:2605.03042 · → GitHub wanshuiyin/Auto-claude-code-research-in-sleep

Ruofeng Yang / Yongcan Li / Shuai Li（SJTU + SII），5/5 提交，HF Papers 5/06 榜首 59 投票。核心命题：长程研究 agent 的核心失败模式不是"可见崩溃"而是 plausible unsupported success——agent 长时间运行后产出"看起来合理但 evidential support 不完整 / 误报 / 静默继承自 executor 框架"的 claim。ARIS 三层架构：(1) Execution layer：65+ Markdown 定义的可复用 skill、MCP 模型集成、persistent research wiki（跨 session 复用历史发现）、deterministic figure 生成；(2) Orchestration layer：协调 5 条 end-to-end workflow，可调 effort、reviewer 模型路由可配；(3) Assurance layer：三阶段验证机制——执行模型推进进度，不同模型家族的 reviewer（如 Claude executor 配 GPT reviewer 或反向）批评中间产物并 request 修订。默认 cross-model adversarial collaboration——同家族 reviewer 易陷入相同 blind spot。开源 + 包含早期部署经验。

ARIS 是 4/27 Levels × Laws Agentic World Modeling、4/30 Microsoft Synthetic Computers at Scale、5/04 ASI-EVOLVE 之后第四条专门攻坚"长程 agent 工作流"的系统性工程贡献——但它独有的角度是 "plausible unsupported success" 失败模式的命名 + 工程对策。过去 6-12 个月长程 agent 研究的注意力主要在 (a) 4/27 ClawMark 多日多模态 coworker 严格成功率 20% 的评测、(b) 4/30 RLVR Reward Hacking 的 reward signal 中毒、(c) 4/30 Exploration Hacking 的训练抵抗、(d) 5/4 Alibaba Metis HDPO 的"该停时停"。这些都是"agent 主动作弊或被动失败"的研究；ARIS 命名的 plausible unsupported success 是 agent 没有主动作弊也没有失败、但仍然产出无支撑结论 的更隐蔽现象——这条命名比之前所有 alignment 研究的具体威胁模型都更接近"实际研究 / 工程团队部署 agent 后真正会遇到的问题"。

"cross-model adversarial collaboration" 这条工程主张是 ARIS 的核心实操贡献。当前 multi-agent debate / actor-critic 框架（CrewAI / AutoGen / LangGraph / OpenAI Swarm）默认 reviewer 与 executor 是同一模型——这条选择在工程上简单但留下"两个 instance 同 weight 同 prior 同 blindspot"的 systemic risk。ARIS 显式建议 cross-family reviewer——Claude executor 配 GPT reviewer、GPT executor 配 Gemini reviewer、或反向——让 reviewer 的 evaluation prior 与 executor 不重叠。这条建议和 5/4 Apple CLAUDE.md 泄漏揭示的 "Apple 把 Claude 用在内部代码、Gemini 用在 Siri" vendor 多元化策略隐合——"按场景分化 frontier vendor" 在 2026 春天从企业部署直觉上升为 agent 架构的方法论原则。对正在自建研究 / 工程 agent 平台的团队：(a) 立即在 multi-agent loop 中加 cross-family review 节点（不是 self-review），独立测两条 prior 的失败模式重叠率；(b) 把 ARIS 的 "research wiki + deterministic figure" 当 baseline——所有长程 agent 工作必须有跨 session 持久化记忆 + 可复现 artifact 生成，否则 plausible unsupported success 无法被外部审计。

ARIS 与 Symphony / ALE 三件套 / Microsoft Synthetic Computers 的工程定位差异值得标记。Symphony 是"任务调度 control plane"（Linear issue → Codex daemon → 自动化 PR），ALE 三件套是"agent 训练 substrate"（ROCK + ROLL + iFlow），Microsoft Synthetic Computers 是"长程训练数据 substrate"（1000 合成电脑 × 8h），ARIS 是 "研究输出 assurance" ——专门对付 "agent 运行了 8 小时但产出的论文是否有 evidential support" 这条独有问题。这四条加起来形成 2026 春天 agent 工程化栈的完整四层：control plane → training substrate → execution harness → output assurance——任何完整的 agent 平台未来都需要这四层。需要冷静读：ARIS 的 GitHub repo 名 "Auto-claude-code-research-in-sleep" 暗示它本身是为 Claude Code 等 vibe-coding 工具设计的——独立复现需要适配到非 Claude Code 环境（Codex、Cursor 等）；65+ skill 的具体覆盖面与 quality 等代码 release 后才能评估。

ENTRY 005/012

[ 论文 · 美团 · LONGCAT · 推理 · BON · 开源 ]

HeavySkill：把 heavy thinking 从外化编排单元内化为模型参数 skill

(HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness)

→ HF Papers 2605.02396 · → arXiv:2605.02396 · → GitHub wjn1996/HeavySkill

Linsen Guo / Zhengyu Chen / Qi Guo / Hongyu Zang / Wenjie Shi / Haoxiang Ma / Xiangyu Xi / Xiaoyu Li / Wei Wang / Xunliang Cai（美团 LongCat），5/5 提交。核心 reframe：把 heavy thinking（多分支 reasoning + 综合）不再视为 agentic harness 编排层的最小执行单元、而是模型参数内化的 inner skill，由其驱动 orchestrator 解题。两阶段 pipeline：parallel reasoning（同一 query 多条独立 reasoning trace 并行）→ summarization（合并多条 trace 出最终答案）。关键发现：(1) 这条 inner skill 一致超越传统 Best-of-N（BoN）——同 N 下 quality 显著高；(2) stronger LLM 可逼近 Pass@N——足够强的模型经 heavy-thinking 训练后单次输出可接近 N 次采样取最优；(3) heavy thinking 的 depth + width 是可学 skill，可通过 RL 进一步 scale。论文主张：这条路径指向 self-evolving LLM——内化复杂推理能力、不依赖脆弱的外部编排层。

HeavySkill 与 5/5 ARIS 同周开源代表 agent 工程化的两条对位路线——ARIS 是"把 capability 外化到 harness"（cross-model review、persistent wiki、deterministic figure），HeavySkill 是"把 capability 内化到 weight"（parallel reasoning + summarization 作为模型 inner skill）。这条对位选择与过去 12 个月 agent 研究的两条主流脉络精确对应：(a) 编排层路线（CrewAI / AutoGen / LangGraph / Symphony / ARIS）认为 LLM 是 stateless engine、智能由 harness 设计驱动；(b) 内化路线（DeepSeek R1 / OpenAI o1 / Anthropic Opus 4.7 thinking / Meituan HeavySkill）认为 reasoning 能力应当作为模型 weight 的内嵌 capability。HeavySkill 的特殊价值在它把 BoN（Best-of-N，多次采样取最优的传统 ensemble 路线）这条最简单但低效的外化策略直接放进模型 weight——同等 N 下 inner skill 优于 BoN，且 strong model 可逼近 Pass@N（即理论 N 次采样上限）。

stronger LLM 逼近 Pass@N 这条发现对推理成本经济学是关键意义。当前 frontier reasoning 模型（GPT-5.5 Thinking、Opus 4.7 with extended thinking、Gemini 3.1 Pro thinking、Grok 4.3 always-on reasoning）的 cost 是同档非 reasoning SKU 的 2-5×（reasoning trace 占 token，trace 越长 cost 越高）。如果 HeavySkill 路线在 frontier scale 上跑通——单次 forward + 内化 heavy thinking 接近 Pass@N 的质量——意味着推理 cost 可在不损失 quality 下显著下降（从 N×成本降到 1×）。这条优化和 4/30 Inclusion AI Ling-2.6 "Contextual Process Redundancy Suppression"、4/27 IBM "Thinking Without Words" Abstract CoT、5/4 Alibaba Metis HDPO 形成同一波"压低 reasoning token 消耗"工程主张——2026 春天 frontier 厂商与开源团队在 inference economics 上的优化方向高度收敛。

美团 LongCat 这条贡献者身份值得标记。过去 6 个月美团 LongCat 团队公开了 LongCat-Flash / LongCat-Image / LongCat-Audio 等系列基础模型，主要定位国内消费应用 + 内部业务（美团 / 大众点评 / 闪购），在国际开源社区曝光度低于阿里 Qwen / 腾讯 / 智谱 / DeepSeek。HeavySkill 在 HF Papers 22 投票排前列、GitHub 公开 + 跨域实证，是 LongCat 团队第一次在国际研究社区做出有方法论级影响的工作。配合 4/27 ASI-EVOLVE（SJTU + SII + GAIR）+ 5/5 ARIS（SJTU + SII），中国 ML 研究团队在 agent 工程化路线的国际可见度在 2026 春天显著提升。需要冷静读：HeavySkill 论文未公开具体 benchmark 数字——单看摘要无法判断 inner skill vs BoN 在 GSM8K / AIME / MATH / SWE-Bench 等具体基准上的 gap 大小。GitHub repo 与代码 release 后才能独立验证 "stronger LLM 可逼近 Pass@N" 这条强声明。

ENTRY 006/012

[ 论文 · SEARCH-AGENT · SFT · 开源 · SOTA ]

OpenSeeker-v2：纯 SFT 在 10.6K 轨迹上跑出 search agent SOTA

(OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories)

→ HF Papers 2605.04036 · → arXiv:2605.04036

5/5 学术团队提交。核心反传统主张：sophisticated search agent 不需要 industrial-scale pipeline——纯 SFT on 高质量 curated trajectories 即可超越 CPT + SFT + RL 的多阶段路线。三个数据合成关键修改：(1) 扩大 knowledge graph 覆盖以更广 exploration；(2) 增加 tool set 多样性扩展 functionality；(3) 严格 low-step 过滤剔除低效 trajectory。仅 10,600 训练样本。30B 模型基准：BrowseComp 46.0% / BrowseComp-ZH 58.1% / Humanity's Last Exam 34.6% / xbench 78.0%——全面超过 Tongyi DeepResearch（CPT+SFT+RL，43.4 / 46.7 / 32.9 / 75.0）。论文主张：高质量 informative trajectory 可补偿简化训练方法，让 frontier search agent 不再被 well-resourced 公司垄断。计划开源权重 + 训练数据。

OpenSeeker-v2 是 2026 春天"小而精"路线在 search agent 维度的关键实证——配合 4/30 IBM Granite 4.1（8B dense 全面超 32B MoE 靠数据 + 训练精雕）、5/4 IBM Granite 4.1 公开 LLM-as-Judge 6 维度过滤 recipe、5/2 OpenSeeker-v2 仅 10.6K SFT 数据超过 CPT+SFT+RL，三条独立证据共同提示当前 frontier capability 的瓶颈不是参数量也不是训练阶段数，而是数据质量与 trajectory informativeness。这条认知转换和 4/30 Microsoft Synthetic Computers at Scale 的 1000 合成电脑 × 2000 turn × 8h 路径形成有趣对比——Microsoft 路线追求"data substrate 规模化"，OpenSeeker-v2 路线追求"trajectory 信息密度极致"，两条都在挑战 frontier vendor 的"算力 + 数据 + 多阶段 RL = capability"叙事。

仅 10.6K trajectories 跑出 search agent SOTA 这条工程数字对中小研究团队是直接 unblock。Tongyi DeepResearch 的 CPT + SFT + RL 多阶段 pipeline 通常需要数百万 trajectory + 数十万 GPU-hour——这条门槛把 search agent 研究锁在 frontier vendor 手里。OpenSeeker-v2 把训练数据降到 4 个数量级（10K 级），意味着学术实验室或小公司用单个 8×H100 节点 + 几天时间即可复现。这条 democratization 信号配合 5/5 Local Deep Research（95% SimpleQA OSS 项目）+ 4/27 ARIS GitHub 公开 + 5/4 ASI-EVOLVE 完全开源 + 5/4 Alibaba HDPO + 5/5 HeavySkill GitHub，2026 春天 "agent / 推理路线的核心方法学创新正在从 frontier vendor 转移到学术 + 中国小团队"——这条结构性变化对 OpenAI / Anthropic / Google 的研究护城河提出了严肃挑战。

BrowseComp / Humanity's Last Exam / xbench 这套基准 是过去半年 search agent 评测的事实标准——OpenAI Deep Research、Anthropic Claude Search、Google Deep Research、Tongyi DeepResearch、Inclusion AI Ling-2.6 都跑这套。OpenSeeker-v2 在 4 条都超过 Tongyi DeepResearch（最强开源 baseline）意味着academic team without industrial-scale RL 路线的天花板可能远高于社区当前认知。配合 5/2 OpenAI 退役 SWE-bench Verified、4/30 Claw-Eval-Live 持续刷新机制、5/4 Alibaba Terminal Bench Pro 减污染设计，"基准上的 SOTA" 越来越成为可被纯 data quality 路线达到的目标——意味着未来 12 个月开源 search agent 与 frontier 闭源的差距会持续缩小，企业 search agent 选型的"必须用 frontier API" 决策应当被重新审视。需要冷静读：(a) BrowseComp / xbench 等基准本身的污染状态（trajectories 是否已被 frontier model 训练数据见过）需要独立审计；(b) OpenSeeker-v2 的 30B model 部署成本（H100 单卡 / 多卡）尚未明确，独立成本对比要等代码 + 模型 release。

ENTRY 007/012

[ 开源 · BYTEDANCE · 金融 · FOUNDATIONMODEL · 时间序列 · AAAI2026 ]

Bytedance Kronos：开源金融 K 线 foundation model 全家族

(Kronos: Foundation Model for the Language of Financial Markets)

→ GitHub shiyu-coder/Kronos · → arXiv:2508.02739

Yu Shi 等团队（Bytedance），AAAI 2026 接收，5/06 GitHub trending Python 第 5 位（+241 daily stars，总 23.1k）。首个金融 K 线开源 foundation model——以"K-line（candlestick OHLCV 序列）作为金融市场语言"框定问题，把传统 time-series 路线改造成 token-based 自回归预测。架构两阶段：(1) 专用 hierarchical tokenizer 把连续多维 K-line（OHLCV）转为离散 token；(2) decoder-only autoregressive transformer 预训练于这些 token。训练数据：45+ 全球交易所 K-line 序列。模型家族：Kronos-mini（4.1M）/ Kronos-small（24.7M）/ Kronos-base（102.3M）/ Kronos-large（499.2M）四档。开源：三档较小 model 在 HF 公开，含 fine-tuning script / prediction example / backtesting pipeline / web UI demo；live demo 跑 BTC/USDT 24 小时预测、A 股 top-K 策略回测。

Kronos 是 4/29 IBM Granite 4.1 / 5/01 NVIDIA Nemotron 3 Nano Omni / 5/4 Bytedance financial-services repo（5/6 trending +540 daily stars 第 3 位）之后中国厂商在领域 FM 维度的又一条具体贡献——但 Kronos 与同期"通用 LLM 多模态扩展"路线完全不同，它走的是专业领域 native foundation model 路线（与 4/27 Eywa 框架的"专业 FM 协作"主张直接呼应）。"K-line as language of financial markets" 这条命名揭示一条结构性认知：金融时间序列与自然语言在 information bottleneck 与 hierarchical structure 上有深层同构——OHLCV 的 5 维数据在每个时间步压缩了大量市场参与者行为，hierarchical tokenizer 让这条压缩可被 transformer next-token 接口直接消费。这条 reframe 与过去 5 年金融 ML 的主流（基于 LSTM / Temporal Fusion Transformer / N-BEATS 的 forecasting 路线）有方法论级差异——Kronos 不是把 transformer 当 forecasting head 用，而是把金融数据当 language model 训练的 first-class corpus。

4 档 model size 4.1M-499M 这条参数范围是金融领域的合理选择。金融市场预测的 ground truth signal 远稀疏于自然语言预测——大部分价格变动是 noise，模型 capacity 过大易过拟合 spurious pattern。Kronos 把最大 model 控制在 ~500M（远低于通用 frontier LLM 的 70B+），意味着 Bytedance 团队对金融数据的 effective signal capacity 有清醒判断。这条 sizing 选择与 5/6 trending Python 第 1 位的 TabPFN（"Foundation Model for Tabular Data"）形成对位——两个领域 FM 都在用百 M 级参数 + 大规模预训练 + 领域专用 tokenizer 的范式，明显不同于通用 LLM 的"参数越大越好"叙事。

金融 FM 落地的现实信号与 5/5 Anthropic Claude Finance Agents（Citadel / Walleye Capital / Carlyle 客户验证）+ 5/6 Bytedance financial-services GitHub trending 形成同周事件链——金融行业从"用通用 LLM 做研究助手"升级到"用领域 FM + agent 做核心预测 / 决策" 的产品化窗口在 2026 春天打开。Kronos 提供开源权重 + 回测 pipeline 让中小量化团队可立即试用，配合 Anthropic 的 Microsoft 365 add-ins 让"研究 + 决策 + 客户沟通" 三层都有 frontier AI 工具。需要冷静读：(a) Kronos 的 backtesting demo 用 simple top-K 策略，远远不及生产量化策略的复杂度——独立验证需要在多周期 / 多市场 / 多 regime 下做 walk-forward 测试；(b) 金融预测的 base rate 极低（多数模型 IC < 0.05），Kronos 在公开 benchmark 上的"准确率 / IC / Sharpe"等具体数字未在 README 突出标注，独立可信度等 AAAI 2026 论文与第三方独立测评。对正在做量化 / 风控的团队：可立即用 Kronos-base 作为 baseline 比对自家 LSTM / transformer feature——若 Kronos 简单 fine-tune 即超过自家 baseline，意味着领域 FM 路线值得投入；否则继续优化自家 specialized stack。

ENTRY 008/012

[ 安全 · 红队 · AGENT · DREADNODE · 开源SDK ]

Agentic Red Teaming：Dreadnode SDK 把 AI 安全测试从 weeks 压到 hours

(Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours)

→ arXiv:2605.04019

Dheekonda / Pearce / Landers，5/5 提交。核心 product：Dreadnode SDK 之上的 agentic red teaming agent——把 AI 安全测试从手工 weeks 级 workflow 自动化为 hours 级。unified attack catalog：45+ adversarial attack、450+ transform、130+ scorer，覆盖传统 ML adversarial example + 生成 AI jailbreak + multi-agent / 多语言 / 多模态系统。自然语言操作面：Dreadnode TUI 让安全团队用对话描述测试目标，agent 自主选 attack、组合 transform、执行、报告——把 operator 焦点从"如何构造测试 infra"转回"测什么 vulnerability"。case study：针对 Meta Llama Scout 模型，85% attack 成功率、severity up to 1.0、零人类手写代码。

Agentic Red Teaming 是 5/4 Anthropic Claude Security 公开 beta + 4/30 Sam Altman GPT-5.5-Cyber rollout 之后红队工具侧的对应工程响应——前两者把 AI 用于防守（vuln 扫描 / fix），Dreadnode 把 AI 用于攻击（vuln 发现 / exploit 链构造）。这条"frontier model 同时驱动攻防双侧"的对称性是 2026 春天 AI 安全产业的关键结构变化——配合 4/16 Anthropic Mythos 17 年 FreeBSD CVE 自主发现 + 5/4 OpenAI 自评 GPT-5.5 cyber risk "High"，未来 12 个月任何不用 agentic red team 测试自家 AI 系统的企业都会落后 attacker 一个工具代际。

85% attack success rate on Llama Scout 零人类手写代码 这条数字必须冷静读。Llama Scout 是 Meta 在 2025 年发布的小型轻量模型，定位是 frontier-下层 SKU、安全 alignment 相对薄弱；85% 数字在 frontier-tier model（Opus 4.7、GPT-5.5、Gemini 3.1 Pro）上大概率显著降低。但**"零人类手写代码"** 这条工程主张本身价值高——意味着红队 agent 已具备从 attack catalog + transform 池中自主组合出可工作 exploit 的能力，过去这条工作至少需要 senior security engineer 数日组合调优。这条能力对 (a) 中小公司无 dedicated 安全团队的场景是直接 unblock；(b) frontier vendor 的内部红队效率是数量级提升；(c) 同一能力被恶意行为者获取后的攻击门槛也同步降低——这条是 4/16 Mythos Preview 同款的"攻防能力同步释放"伦理 dilemma。

45+ attack × 450+ transform × 130+ scorer 这条 catalog 规模意味着 Dreadnode 把过去 5 年学术 + 工业界积累的攻击库系统化。对企业 AI 安全团队的现实指引：(a) 立即评估 Dreadnode SDK 是否可纳入自家 AI security pipeline——任何已部署 LLM-based 服务（chatbot / agent / RAG / coding assistant）都应跑一次 baseline scan；(b) 把"agentic red team scan"作为新工程基线——配合 4/26 Anthropic Claude Code Postmortem "all system prompt changes require eval sweep"，每次模型 / system prompt / tool 配置变更后都应 trigger red team scan；(c) 申请 OpenAI Trusted Access for Cyber + Anthropic Cyber Verification Program——这两条程序的 access 状态可能成为合规 audit 输入项。需要冷静读：论文未公开 attack catalog 是否包含已知 frontier model 防御已 cover 的 attack——如果 catalog 大量是"过期 attack"，85% 数字可能只反映 Llama Scout 的 unique weakness 而非 Dreadnode SDK 本身的能力。Dreadnode SDK 是商业产品（不全开源），独立社区复现需要购买 license 或等开源 alternative。

ENTRY 009/012

[ ANTHROPIC · 企业 · MIDMARKET · BLACKSTONE · GOLDMAN · 生态信号 ]

Anthropic + Blackstone + Goldman Sachs 新企业 AI 服务公司：mid-market Claude 实施缺口

(Building a New Enterprise AI Services Company)

→ Anthropic 公告

5/4 Anthropic 联合 Blackstone / Hellman & Friedman / Goldman Sachs 成立专门企业 AI 服务公司，5/5 简报已记录但 5/6 完整披露其市场定位与结构。目标客户：mid-sized 公司——community bank、regional manufacturer、healthcare system，员工 100-5000+，recognize AI 价值但缺内部资源做复杂 Claude 部署。模式：小团队配合客户识别 high-impact use case → 定制 Claude 系统；healthcare 例：医疗文档 / coding / prior authorization 嵌入临床流程。Anthropic CFO Krishna Rao："Enterprise demand for Claude is significantly outpacing any single delivery model." 额外投资方：General Atlantic / Leonard Green / Apollo Global Management / GIC / Sequoia Capital。Partner Network 定位：与 Accenture / Deloitte / PwC（Anthropic Claude Partner Network 既有成员）并列——后三者覆盖 Fortune 1000 大企业转型，新公司专攻 mid-market 渗透 + Anthropic 嵌入式工程师。

这条新 AI 服务公司的工程含义不在 funding 结构（Blackstone / Goldman 投资本身不算特殊），而在 Anthropic 对"frontier vendor 的产品边界" 的明确判断变化——过去 12 个月 frontier vendor 主流策略是"做模型 + API 卖给 SI（systems integrator）"，把实施服务委托给第三方（Accenture / Deloitte / PwC / Capgemini）。Anthropic 这次直接成立 Anthropic Applied AI Engineer 嵌入的 services 公司，意味着 frontier vendor 不再满足于"卖模型"、要直接介入"按客户业务定制 Claude 部署" 这条服务环节。这条策略转变和 5/5 Claude Finance Agents 10 templates + Microsoft 365 add-ins、5/4 Claude Security 公开 beta 一起读，揭示 Anthropic 在 2026 春天的产品路线图：模型 + 工具 + 行业 SKU + 实施服务 + Microsoft 应用集成 五层全部自营。

mid-market 这条市场定位对企业 AI 渗透曲线是关键观察。Fortune 1000 大企业的 AI 部署能力（CIO + 内部 AI 团队 + Big 4 SI 合作）已相对成熟，过去 12 个月 frontier vendor 在这一层的渗透率快速接近 saturation。mid-market（100-5000 员工）是被 frontier AI 部署 gap 系统性遗漏的人群——他们没有内部 AI 团队、Big 4 SI 的报价对其商业体量过高、自家 IT 团队又不熟悉 LLM operationalization。Anthropic 选择在这条层次直接成立 services 公司、配 Goldman / Blackstone / 多家 PE 投资方资本，意味着把 mid-market 的 Claude 部署做成 vertically integrated business——客户付实施服务费 + Claude API 费、Anthropic 拿到端到端控制权 + 数据反馈循环。

对正在做 mid-market AI 咨询业务的 SI / 独立顾问这条新公司是直接竞争威胁——以 Anthropic Applied AI Engineer 嵌入 + frontier 模型 + 行业 template 的组合，独立咨询公司的差异化空间显著缩小。对 mid-market 公司本身这条是利好——以前需要 Big 4 SI 数百万美元报价才能启动的 Claude 部署，现在可能以 mid-market 友好定价（具体未公开）由 Anthropic-backed 团队直接交付。需要冷静读：(a) 新公司具体定价、SLA、目标客户验收标准都未公开，独立评估要等首批落地案例；(b) 与 Accenture / Deloitte / PwC 在 Claude Partner Network 的边界划分（mid-market vs Fortune 1000）实际执行中可能模糊——如果新公司能拿下 Fortune 1000 的部分大单，会冲击既有 SI 与 Anthropic 的合作关系；(c) Goldman 投资 Anthropic-backed services 公司 + 5/5 Anthropic Finance Agents 上线 + Citadel / Walleye Capital 客户验证，这条资本 + 客户 + 产品三角闭环是 2026 年最强的 frontier vendor go-to-market 案例，OpenAI 与 Google 当前都没有等价 stack。

ENTRY 010/012

[ 医疗 · AGENT · RCT · FITBIT · WEARABLE · CONVERSATIONAL ]

SymptomAI：Fitbit app × 13,917 人 RCT × OR=2.47 显著超过临床医师

(SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment)

→ arXiv:2605.04012

Joseph Breda 等 33 作者，5/5 提交。部署规模：通过 Fitbit app 13,917 人随机化测试 5 种 AI agent 的 conversational symptom assessment——真实世界部署而非实验室 vignette；1,228 人 clinician-annotated 子集 + 517 对话由医师 250+ 小时标注。核心结果：SymptomAI 诊断推荐显著优于盲法 RCT 中接收同样对话的独立 clinician——OR=2.47, p<0.001；dedicated symptom interview agentic 路线显著优于 user-guided baseline（p<0.001）。**生理信号关联**：跨 ~400 conditions 分析 500K+ 天 wearable 数据，急性感染（流感等）OR>7 强生理关联。1,509 额外对话从 US 通用人群 panel 验证 finding。冷静 caveat：研究依赖自报 ground truth，作者主动承认这条对结论的限制。

SymptomAI 与 5/5 Harvard ER o1（70 病例 × 4 临床决策节点 / R-IDEA 78/80）形成医疗 AI 评测光谱的两端——Harvard 是 small-sample 结构化临床决策（70 个病例 + ICU / triage / chart review），SymptomAI 是 large-sample 真实部署 conversational triage（13,917 人 + 全球 wearable + 5 个 agent 对比）。两条同周研究共同推进"frontier conversational AI 在医疗中的具体定位"从 4/16 OpenAI GPT-Rosalind 垂直 SKU + 4/29 Diabettech 数碳实验"模型 confidence 与正确率零相关"的复杂矛盾走向更细粒度的边界划分——LLM 在结构化 differential diagnosis（R-IDEA 78/80 远超医师 28/80）+ dedicated symptom interview 路线（OR=2.47 显著超过医师）上有 robust 优势，在简单视觉数值 + 单步感知任务上仍系统性失败。

OR=2.47 这条 effect size 在医疗 AI 评测里属于强信号——通常医疗干预 RCT 的 OR 落在 1.2-1.5 区间，2.47 意味着 SymptomAI 的诊断准确性比独立医师在同条件下高接近 2.5 倍 odds。但必须冷静读这条 caveat 框架：(a) independent clinician 拿到的是 dialogue 而不是患者本人——意味着医师无法做 follow-up 提问、无法看 body language / 触诊 / vital sign，这条信息 asymmetry 让"AI 超过医师"叙事被研究者主动降温（与 5/5 Harvard ER 研究同样 caveat）；(b) dedicated symptom interview vs user-guided 的差距 才是真正可推广的工程信号——LLM 主动驱动结构化访谈 显著优于"用户随便聊"，意味着医疗 conversational AI 的产品设计应当把 agent 设为"主动 interviewer"而不是"被动 chatbot"。这条 insight 对正在做 health tech 的产品团队是直接落地建议——Babylon Health、Ada Health、Buoy Health、K Health 等已部署的症状评估产品如果用 user-guided 路线，应当切换 dedicated interview 路线即可获得可观质量提升。

Fitbit + wearable 500K+ 天数据 + 急性感染 OR>7 这条侧线发现是 SymptomAI 最被低估的部分——意味着 wearable 设备的 PPG / 心率 / 活动数据对急性感染（流感、COVID 类）的 prediction signal 远高于过去公开估计。配合 4/24 Apple Watch ECG / Oura Ring 在心血管事件早期 detection 的研究、5/5 Apple-Anthropic 合作让 Apple Health AI 用 Claude 推理（推测 Apple 内部应用方向），wearable + LLM 的医疗预防分析叠加在 2026 春天进入 production-ready 状态。需要冷静读：(a) Fitbit 用户群存在 self-selection bias（更年轻、更健康、更技术友好），13,917 人样本对老年 / 慢病 / 低收入人群代表性不足；(b) "诊断准确性 OR=2.47"的具体定义（是否包含正确诊断 / 部分正确 / 鉴别诊断 list）需要等论文全文披露；(c) Joseph Breda 作为 first author 的工程实施细节（哪 5 种 AI agent、各自架构、底层 LLM 是哪一家）尚未公开——独立复现 / 独立验证需要等代码 + 数据 release。

ENTRY 011/012

[ VIBE-CODING · CLAUDECODE · CURSOR · GEMINI · ENGINEERING-CULTURE · SKILLS ]

Agent Skills（Addy Osmani）：把 senior engineering 工作流编码为 markdown skill

(Agent Skills)

→ addyosmani.com · → HN

Google Chrome team Addy Osmani 5/5 发表 long-form 文章。核心 reframe：Agent Skills = 带 frontmatter 的 markdown 文件，按 relevance 注入 AI coding agent context；不是"educational essay about best practices"而是 process over prose——一段步骤序列、含 evidence checkpoint、明确 exit criterion。Five 原则：(1) process over prose——workflow 优于 reference 文档；(2) anti-rationalization tables——预写常见 shortcut 的 rebuttals 防止 agent 偷懒；(3) verification non-negotiable——必须有 concrete evidence（passing test / reviewer 批准）才能 mark 完成；(4) progressive disclosure——按当前 phase 加载相关 skill，不是一次性载入 20 个；(5) scope discipline——只改显式要求修改的部分。结构：6 SDLC phase（Define / Plan / Build / Verify / Review / Ship）+ 7 slash command（/spec /plan /build /test /review /ship /code-simplify）+ meta-skill router 按 context 决定哪些 skill 适用。支持框架：Claude Code（marketplace 集成）、Cursor（rules dir）、Gemini CLI、任何接受 system-prompt content 的工具。

Agent Skills 的发布时机和 5/4 LlamaIndex CEO "scaffolding 层正在崩塌"主张、5/5 Google Symphony "ticket-level workflow + agent control plane"、4/27 OpenAI Symphony 同款工程哲学形成共振——2026 春天 agent 工程化的核心抽象正在从"prompt + tool calls"上升到"spec + workflow + verification checkpoint"。Addy Osmani 这条文章的特殊价值不在新原语（CLAUDE.md / Cursor rules / Gemini CLI 配置都已存在 12+ 个月），而在它把 senior engineering 文化（test pyramid / Chesterton's Fence / Hyrum's Law / scope discipline）系统编码为 portable markdown skill——这条工作把"senior engineer 的隐性知识"显式化、可注入到任意 agent context、跨 vendor 复用。

"process over prose" + "anti-rationalization tables" 这两条原则 是 Agent Skills 真正的工程贡献。过去 18 个月主流 vibe-coding 实践（CLAUDE.md / Cursor rules / .windsurfrules / .cursorrules）大多走"prose"路线——写一段团队的工程哲学 / 命名规范 / 架构原则，让 agent "读了就懂"。但 4/26 Anthropic Claude Code Postmortem、4/30 Apple CLAUDE.md 泄漏后实际效果显示：LLM 读了 prose 但常 surface-level skim、行动时回归 default behavior。Addy Osmani 的 process 原则把每个 skill 的步骤序列 + checkpoint + exit criterion 写成可执行 spec，让 agent 必须按 step 推进 + 提供 evidence 才能 mark complete——这条等于把**"团队 review 文化"硬编码进 agent 的执行流程**。anti-rationalization tables 更进一步——预写常见 shortcut（"测试可以后加"、"先合并以后再 refactor"、"暂时跳过这条 lint rule"）的 explicit rebuttal，让 agent 在试图偷懒时直接被 skill 内容拦截。这条结构性防御机制比任何 system prompt instruction 都更 robust。

对正在用 Claude Code / Cursor / Gemini CLI 的工程团队：(a) 立即把 CLAUDE.md / .cursorrules 从 prose 形式重写为 process-based skill——每个 skill 含步骤 + 检查点 + 退出 criterion + anti-rationalization table；(b) 按 6 SDLC phase + 7 slash command 拆 skill——不要把所有 skill 塞进单一 mega-prompt，而是按 phase 加载相关子集；(c) 加 meta-skill router 让 agent 在每条 task 开始时先决定 "这条 task 属于哪个 phase / 加载哪些 skill"，避免每条 task 都吃 20K+ token 的全量 system prompt。这条工程实践配合 4/30 Apple v5.13 误打包 CLAUDE.md 事件提示的"build pipeline 必须排除 .claude / .cursor / .windsurf 等 AI 配置目录"checklist，是 2026 春天 vibe-coding 团队的新工程基线。需要冷静读：Agent Skills 是 opinionated framework（强反映 Google engineering culture），不一定适用所有团队——startup 早期高速迭代 + scope 频繁变化的场景下 strict scope discipline 反而可能拖累速度，应当按团队成熟度梯度采纳。

ENTRY 012/012

[ 开源 · DEEPRESEARCH · 本地部署 · 隐私 · MCP · VIBE-RESEARCH ]

Local Deep Research：开源 deep research agent + 95% SimpleQA 主张

(Local Deep Research)

→ GitHub LearningCircuit/local-deep-research

5/06 GitHub trending Python 第 2 位（+532 daily / 5.5k 总）。核心定位：开源 AI 研究助手，多 LLM + 多搜索引擎做 agentic 深度调查、生成带引用的报告，本地处理 + SQLCipher AES-256 加密保隐私。性能：自报 GPT-4.1-mini + SearXNG + focused-iteration 配置下 ~95% SimpleQA accuracy；HuggingFace 维护社区 benchmark 跨模型对比。支持栈：Local LLM——Ollama / LM Studio / llama.cpp（Llama 3 / Mistral / Gemma / DeepSeek / Qwen）；Cloud LLM——OpenAI / Anthropic / Google + 100+ via OpenRouter；搜索——arXiv / PubMed / Semantic Scholar / Wikipedia / SearXNG / Tavily / Google API；可索引私有文档（LangChain retriever）。架构：SQLCipher AES-256 加密、per-user 隔离 db、零 telemetry、REST API、Docker、Claude MCP 集成。仓库活跃度：6,297+ commit、多种安装方式（pip / Docker Compose）。

Local Deep Research 在 5/06 trending +532 daily stars 与 5/05 OpenSeeker-v2 SOTA 形成"同周开源 deep research 双信号"——前者是 production-ready end-user product（含 MCP / Docker / web UI），后者是论文级 SOTA 模型。两条加起来意味着OpenAI Deep Research / Google Deep Research / Anthropic Claude Search 三家闭源 deep research 产品的开源替代品已具备 production-grade 部署能力。配合 5/4 DeepClaude（566 HN↑，proxy + 17× 成本降低）、5/4 Anthropic Claude Code 4M 用户公开数据，2026 春天 frontier capability commodity 化的速度显著高于过去任何一波（GPT-3.5 → Llama 1 用了 9 个月、GPT-4 → Llama 3 用了 12 个月、Deep Research → Local Deep Research 仅 6 个月）。

95% SimpleQA accuracy 这条数字必须冷静读。SimpleQA 是 OpenAI 在 2024 年发布的"事实性问答"基准，知识截止前的事实问题；frontier model 在该基准上的表现：GPT-4.1 ~85%、GPT-5 ~88%、Claude Opus 4 ~87%。Local Deep Research 自报 95% 配置（GPT-4.1-mini + SearXNG + focused-iteration）大幅领先 raw frontier 模型——但这条数字不代表 Local Deep Research 比 frontier model 强，而代表"model + search 增强 deep research workflow 的边际收益"。任何接 web search 的 deep research agent 都能在 SimpleQA 拉到 90%+，因为 SimpleQA 大量问题是"可在 Wikipedia 1-2 跳找到的事实"——本质上 SimpleQA 已成为"是否接搜索"的二分类基准而非"模型推理能力"基准。对评估自家 deep research 工具的团队：(a) 不要把 SimpleQA 95% 作为采购信号——这只是 search 调用基本能力的 sanity check；(b) 应当用 BrowseComp / Humanity's Last Exam / xbench 等 anti-contamination + 多跳推理基准做 head-to-head；(c) Local Deep Research 的真正价值在 本地部署 + 加密 + MCP 集成 这条 governance 维度——对合规要求高（金融 / 医疗 / 法务）的企业是 OpenAI Deep Research / Google Deep Research 的合规友好替代品。

100+ via OpenRouter + 本地 Ollama 双栈意味着这条工具在 vendor-agnostic 维度极致——配合 Claude MCP 集成、SearXNG 私有搜索引擎、SQLCipher 本地加密 db，整条 pipeline 可以做到 frontier model 数据零外传（用 local LLM）或 frontier model API 调用 + 私有数据本地不出 infra（用 OpenRouter）。这条 deployment posture 是 4/30 Apple CLAUDE.md 泄漏后企业 IT governance 的新工程基线——任何 AI 工具的"是否泄漏内部数据 / token / 业务知识"必须在采购评估时显式审计。需要冷静读：(a) Local Deep Research 是社区驱动项目（非 frontier vendor 背书），代码 quality / 安全审计 / 长期维护承诺都低于 OpenAI / Anthropic 闭源产品；(b) GitHub stars 数（5.5k）远低于 LangChain / LlamaIndex / AutoGen 等成熟 framework，独立 production 部署需要团队具备相对强的 self-host + 调试能力；(c) "social engineering / prompt injection" 等供应链 / 输入侧攻击在自托管 deep research 上的风险与 4/30 Lightning Shai-Hulud / 4/29 Ramp Sheets prompt injection 同款——必须在 production 环境前做完整安全审计。

其他值得关注

OpenAI GPT-5.5 Instant 5/5 上线（smarter / clearer / more personalized 定位）— 详细 spec 暂未公开，等 system card 后再补
OpenAI Advanced Account Security 5/5（ChatGPT 账户安全升级）— 产品安全功能升级
OpenAI 新 ChatGPT Ads format 5/5（广告生态扩展）— 商业模式信号
TabPFN Foundation Model for Tabular Data（5/06 trending Python +218 daily / 6.5k stars）— 表格数据 FM 持续扩散
Bytedance financial-services repo（5/06 trending +540 daily / 8.6k stars）— 金融行业 AI 应用集合
deer-flow Long-horizon SuperAgent（5/06 trending +328 daily / 65k stars）— 长程 agent 框架
awesome-llm-apps（5/06 trending +220 daily / 109k stars）— 100+ AI Agent 与 RAG 应用集合
Pixelle-Video 自动短视频生成（5/06 trending +1320 daily / 12.5k stars）— AI 视频生成 OSS
Scrapling 自适应 web 抓取框架（5/06 trending +914 daily / 45.8k stars）— Agent / RAG 数据采集基础
MAKA Manufacturing Multi-Agent（arXiv 2605.04003）— CNC 机加工补偿，multi-agent 较 unstructured interaction +87.5pp
EQUITRIAGE LLM ER Triage Gender Bias Audit（arXiv 2605.03998）— 5 个 LLM ESI 分诊 bias，所有 flip rate 超 5%
Skills-Coach Self-Evolving Training-Free GRPO（HF Papers 15↑）— 训练免 GRPO 的 skill 优化框架
Computer Use is 45× more expensive than structured APIs（HN 426↑ reflex.dev）— 量化数据，工程教训
AI didn't delete your database, you did（HN 529↑ idiallo.com）— Replit DROP TABLE 类事故的工程反思
Google AI 服务公司增长（5/4-5/5 Google Cloud Next 2026 透露：first-party 16B tokens/min、Gemini Enterprise paid MAU +40% QoQ）— 生态信号

← 2026.05.05 2026.05.07 →