一日三饭 | HARNESS

← /harness

════ 2026.05.04 ════

今日要点

> Anthropic Claude Security 公开 beta + OpenAI GPT-5.5-Cyber rollout 双线开火：5/4 Anthropic 把"Claude Code Security"改名为 Claude Security 推向 Enterprise 公开 beta——基于 Opus 4.7，agent 式扫描数据流跨文件 / 模块，多阶段 validation pipeline 压低 false positive，CSV / Markdown / Webhook（Slack / Jira）出口；CrowdStrike / Microsoft Security / Palo Alto / SentinelOne / TrendAI / Wiz 已嵌入 Opus 4.7。对垒：4/30 Sam Altman 公开"GPT-5.5-Cyber 几日内 rollout 给 critical cyber defenders"，走 Trusted Access for Cyber program（chatgpt.com/cyber），是对 Anthropic Mythos / Project Glasswing 的直接回应。frontier cyber 模型从研究 preview 进入"分级受控产品"阶段。
> ASI-EVOLVE：AI-for-AI 闭环系统首次给出全栈实证（SJTU / SII / GAIR）：1773 轮自动探索生成 105 个超 DeltaNet 的线性注意力架构，发明 multi-scale routing 动态算力调度；pretraining 数据 pipeline +3.96 pp 平均、MMLU +18 pp；RL 算法发现 "Budget-Constrained Dynamic Radius" 把更新束缚在预算内，GRPO 上 AMC32 +12.5 pp / AIME24 +11.67 pp / OlympiadBench +5.04 pp；跨 biomedicine（药物预测 +6.94 AUROC）+ 优化（圆装 17 轮 SOTA）证明可迁移。开源 GAIR-NLP/ASI-Evolve。
> Alibaba Metis + HDPO：把"trigger-happy" agent 治成"自知何时不调工具"：Hierarchical Decoupled Policy Optimisation 同时优化 execution efficiency + task accuracy，冗余 tool call 从 98% 压到 2%，同时刷新多个推理 benchmark SOTA。这是 4/19 RLVR Reward Hacking 之后第一篇正面解决"agent 何时该停"的方法论论文，配合 Alibaba 同期 ROME / IPA / ROLL 三件套形成完整 Agentic Learning Ecosystem。
> When LLMs Stop Following Steps：14 模型 × 55 数据集系统性诊断 "procedural execution"——纯算术 step-wise，5 步任务平均首答 61% → 95 步任务 20%；失败模式：miss-answer / premature termination / self-correction-after-mistake / 截断 trace / 幻觉额外步骤。这条结果对 "frontier 推理基准 90%+" 时代是冷水：模型在长程严格指令执行上的真实能力与短链推理基准呈现结构性脱钩。
> DeepClaude（Show HN 566↑）+ LlamaIndex "95% AI 生成"宣言：DeepClaude 把 Claude Code 的 agent loop 接到 DeepSeek V4 Pro / OpenRouter / Fireworks 后端，本地 localhost:3200 proxy 切换 backend、报 17× 成本降低（DeepSeek V4 cache 跨 turn 120× cost↓）；同期 LlamaIndex CEO Jerry Liu 在 VentureBeat "Beyond the Pilot" 公开"LlamaIndex 95% 代码已是 AI 生成, scaffolding 层在塌缩——RAG / agent loop 框架将被 frontier 模型直接吞掉"。两条同周事件给"AI coding 工具栈下一年走向"提供具体数据点。

详细内容

ENTRY 001/010

[ ANTHROPIC · OPENAI · CYBER · OPUS4.7 · FRONTIER · 安全产品 ]

Anthropic Claude Security 公开 beta + OpenAI GPT-5.5-Cyber 受限 rollout：frontier cyber 模型双线开火

(Claude Security Public Beta and OpenAI GPT-5.5-Cyber Restricted Rollout)

→ Anthropic 公告 · → Help Net Security · → Infosecurity Magazine · → Anthropic Use Claude Security · → BusinessToday GPT-5.5-Cyber · → Dataconomy

5/4 Anthropic 把 Claude Code Security 改名 Claude Security 推向 Enterprise 公开 beta（claude.ai/security 与 Claude.ai sidebar）。底座 Opus 4.7，与传统 SAST 的关键差异：agent 式 stochastic 扫描——不是固定 pattern matching，而是跨文件 / 跨组件读 raw source、跟踪 data flow，识别 logic-level vulnerability。新增功能（相对 research preview）：(1) multi-stage validation pipeline 独立审查每条 finding 压低 false positive；(2) confidence rating（含 severity / impact / 复现步骤 / 可执行 patch 指令）；(3) scheduled scan 持续监控；(4) directory-level 定向扫描；(5) advanced triage tracking 含 dismissal reason；(6) CSV / Markdown 导出；(7) Webhook → Slack / Jira。partner 生态：CrowdStrike / Microsoft Security / Palo Alto Networks / SentinelOne / TrendAI / Wiz 把 Opus 4.7 嵌入产品，Accenture / BCG / Deloitte / Infosys / PwC 做服务集成。Cyber Verification Program 给"合法 vuln 研究 / 渗透 / 红队"申请通道，否则模型自身 safeguard 自动拦截。对垒侧：4/30 Sam Altman 公开"几日内 rollout GPT-5.5-Cyber 给 critical cyber defenders"——通过 Trusted Access for Cyber program（chatgpt.com/cyber 个人申请，企业走 OpenAI rep）。GPT-5.5-Cyber 上承 4/14 GPT-5.4-Cyber（含 binary 反编 vuln 分析）+ 2/26 启动的 $10M Cyber Grant Fund。OpenAI 自评 base GPT-5.5 在 cyber risk 上 "High"（未到 Critical 阈值，即不能 autonomous zero-day），Cyber variant 是否突破未公开 benchmark。重要 context：4/16 Anthropic 公开 Mythos Preview 时承认其 cyber 能力强于 Opus 4.7，White House 与 Wall Street Journal 都对 Mythos 扩散持谨慎态度。

Claude Security + GPT-5.5-Cyber 同周开火是 frontier 厂商在过去两个月（4/16 Mythos Preview → 4/26 Anthropic Claude Code Postmortem → 4/29 Ramp Sheets prompt injection → 4/30 Lightning Shai-Hulud → 5/4 Claude Security GA）"安全 + AI" 叙事完整闭合的标志性事件。真正值得标记的工程主张是 Anthropic 在博客里那句 "scans are stochastic by design"——不是 marketing 口号，而是结构性宣告：frontier vendor 正式承认未来的 SAST 工具不再是确定性 rule engine，而是 agentic、随机、需要 confidence 评级与多轮 validation 的概率系统。这条转变对企业安全工程是结构挑战——传统 SAST 的 SLA 模型（"扫描 N 次结果一致"）在 stochastic agent 下失效，必须转向"多次扫描 + ensemble + 人工 review confidence threshold"的新工作流。Claude Security multi-stage validation pipeline + confidence rating 这两条机制就是为这条新工作流提供产品支撑。

OpenAI Cyber 路线的产品化节奏与 Anthropic 形成镜像差异：Anthropic 是 "frontier model（Mythos）+ 公开 beta product（Claude Security）" 双层结构，frontier 闭门 + 产品下沉；OpenAI 是 "限定 access program（Trusted Access for Cyber）+ 多 SKU 渐进放权（GPT-5.4-Cyber → GPT-5.5-Cyber）"。两家都没把 cyber 模型作为标准 API 开放——这条共识本身就是 frontier lab 对 4/19 RLVR Reward Hacking、4/30 Lightning Shai-Hulud 等近期事件的隐性回应：任何具备 universal vuln 发现 / exploit 能力的模型都已经超出 GPL 公开发布的安全阈值。配合 Anthropic 4/16 Mythos 同步推 Project Glasswing（与 Mozilla 合作 Firefox vuln 修复）+ 5/4 Claude Security 给 Enterprise 客户、White House Mythos 扩散异议、WSJ 报道，2026 年春天 frontier cyber 模型已经形成"研究→限定 access→Enterprise SKU"三级阶梯——这条阶梯的存在本身就是 frontier 厂商对监管的主动让位。

对企业 security ops 的现实指引：(1) 立即在 Claude Enterprise 试评 Claude Security——这是第一个由 frontier model 驱动 + 含 webhook 集成 + 完整 audit trail 的 agentic SAST，与 Snyk / Checkmarx / GitHub Advanced Security 并存而非替代；(2) Confidence rating 可作为新增工程信号——传统 SAST 给 "high/medium/low" 是 rule-based 标签，Opus 4.7 的 confidence 是 model self-assessment，不能直接当 truth label 用——参考 4/29 Diabettech 27000 实验的"模型自报置信度与正确率零相关"教训，建议把 Claude Security 的 confidence 当 "排序信号" 而非 "决策 ground truth"；(3) 申请 OpenAI Trusted Access for Cyber 与 Anthropic Cyber Verification Program——明年这两条程序的 access 状态可能成为合规 audit 的输入项。需要冷静读：Claude Security 仍是 stochastic agent，每次扫同一 codebase 结果可能不同——必须接受 "agentic SAST 不可重复" 这条 fundamental property，把 SLA 从 "确定性扫描" 重新设计为 "N 次 ensemble + 阈值"。

ENTRY 002/010

[ 论文 · SJTU · SII · GAIR · 自演化 · AUTOML · 开源 ]

ASI-EVOLVE：AI-for-AI 闭环首次跨架构 / 数据 / 算法三栈实证

(ASI-Evolve: AI Accelerates AI)

→ arXiv:2603.29640 · → VentureBeat 报道 · → GitHub GAIR-NLP/ASI-Evolve · → HF Papers · → NewAtlas

Weixian Xu / Tiantian Mi / Yixiu Liu / Yang Nan / Zhimeng Zhou / Lyumanshan Ye / Lin Zhang / Yu Qiao / Pengfei Liu（SJTU + SII + GAIR），3/31 提交 arXiv，5 月初 VentureBeat 等媒体集中扩散。核心定位：自演化 agentic 系统专为 "AI-for-AI research" 设计——不是单领域 AutoML，而是闭环 "learn-design-experiment-analyze" 跨架构 / 数据 / 算法三栈。两核心组件：(1) Cognition Base 预装人类先验（task heuristic + 已知 pitfall），让首轮探索就有方向；(2) Analyzer 处理多维实验反馈，把结果蒸成可读 lesson 反喂 Cognition Base——论文原话 "evolves cognition itself"。三栈实证：(A) 神经架构搜索——1,773 轮自动探索生成 105 个超 DeltaNet 的线性注意力架构，关键发明 multi-scale routing 动态调整算力预算；(B) 预训练数据 pipeline——平均 +3.96 pp，MMLU +18 pp；(C) RL 算法设计——发现 "Budget-Constrained Dynamic Radius" 把更新束缚在预算内稳定 noisy 训练，GRPO 上 AMC32 +12.5 pp / AIME24 +11.67 pp / OlympiadBench +5.04 pp。跨域迁移：biomedicine 药物预测 +6.94 AUROC、圆装优化 17 轮跑出 SOTA。Lead 研究者 Xu Weixian 强调"非盲演化——人类设定方向，AI 加速搜索"。完全开源（GAIR-NLP/ASI-Evolve）。

ASI-EVOLVE 是 2026 春天"AI 加速 AI"叙事的关键工程实证——比 Sakana AI Scientist（2024）、AutoML 系列、Microsoft 4/30 Synthetic Computers at Scale 都更激进。前几者只在单一维度（论文写作 / 超参 / agent 训练）做闭环；ASI-EVOLVE 第一次把 架构搜索 + 数据 pipeline + RL 算法 三栈全部纳入同一闭环，且每栈都给出超人类基线的具体数字（线性注意力架构 105 个 / MMLU +18 pp / GRPO +12.5 pp）。这条架构主张的真正含义是把"frontier 模型迭代"从"OpenAI / Anthropic / Google 的内部 RL 与数据团队"重新框定为"可被 agentic 系统自动加速的 search problem"——配合 4/29 Microsoft Synthetic Computers (1000 × 2000 turn × 8h)、4/27 Symphony "100% agent-written codebase" 内部实验，2026 年春天 frontier lab 的 R&D 流程正在被 agentic 系统系统性蚕食，模型本身在加速模型研发这条 recursive loop 已经从理论假设变为可验证的工程现象。

"Budget-Constrained Dynamic Radius" RL 算法这条具体发现值得拆开看。GRPO（Group Relative Policy Optimization）是过去一年 LLM RL 的事实标准（DeepSeek R1 / V3 / V4、阿里 Qwen3 系列、智谱 GLM-5 都用），改进方向（DAPO / GSPO / IPA 等）多由人类研究者手动尝试。ASI-EVOLVE 在 noisy data 设定下自动发现 "把每次更新束缚在动态半径内" 这条策略——本质是 trust-region 思想的自动化变体——并在 AMC32 / AIME24 / OlympiadBench 三个数学 RL 评测上取得显著优势。这条结果对所有正在做 RL 训练的团队是直接信号：未来 12 个月 RL 算法领域的"新 trick"可能不再首发于 OpenAI / Anthropic 论文，而是首发于 ASI-EVOLVE 或类似闭环系统的自动发现日志中。如果 6 个月内 GAIR 把 "Budget-Constrained Dynamic Radius" 写进独立论文 + 跑通 frontier scale，这条算法可能成为下一代开源 RL 训练的标配。

"105 个超 DeltaNet 线性注意力架构" 是另一条系统性信号。线性注意力（DeltaNet / Mamba / GLA / Lightning Linear / RetNet）过去 18 个月在 frontier scale 上仍未真正取代 softmax attention（DeepSeek V4 用 MLA + CSA，xAI Grok 4.3、Opus 4.7 主路线仍是 dense attention 变体）；ASI-EVOLVE 一次产出 105 个超 DeltaNet 的变体意味着线性注意力的设计空间远比社区当前探索的更广，且自动搜索能高效覆盖人类设计师未触及的 multi-scale routing 路径。这条对正在自建长上下文模型的团队（特别是中文社区——MiniMax M2.5 / Inclusion AI Ling-2.6 / GLM-5）是直接架构灵感来源——不需要等 ASI-EVOLVE 论文复现，立即可以读 GitHub 上 Cognition Base 的 prior 知识库设计。需要冷静读：论文未公开 ASI-EVOLVE 自身的 compute 消耗——1,773 轮架构探索 + 跨多 task 验证可能消耗等同于训练一个 frontier 模型的算力；中小团队复现需要等 GAIR 公开"per-experiment compute budget"细节。VentureBeat 等媒体报道倾向"超越人类基线"叙事，但 baseline 本身的强度（DeltaNet vs frontier dense / MLA）需要独立评估。

ENTRY 003/010

[ ALIBABA · RL · AGENT · HDPO · METIS · TOOLCALL ]

Alibaba Metis + HDPO：把 "trigger-happy" agent 治成"自知何时不调工具"

(Alibaba's Metis Agent and HDPO Reduce Redundant Tool Use 98% → 2%)

→ TechBooky 报道 · → VentureBeat AgentEvolver

Alibaba 团队提出 Hierarchical Decoupled Policy Optimisation (HDPO) 训练框架 + 多模态模型 Metis。问题定义：当前 agent 的"profound metacognitive deficit"——对"该用内部 parametric 知识答 vs 该调外部 tool" 这条基础决策做不好。HDPO 机制：显式训练 agent 同时优化 (1) execution efficiency（少调工具）+ (2) task accuracy（仍要答对），不再单纯优化 success rate；让 abstaining 成为 first-class 选择。核心结果：Metis 把冗余 tool call（不必要 web 搜索 / 不必要代码执行）从 98% 压到 2%，同时多个推理 benchmark 上刷新 SOTA——切 tool 不损失 quality。Alibaba Agentic Learning Ecosystem (ALE) 三件套配套：ROCK（sandbox manager）+ ROLL（post-training）+ iFlow CLI（agent framework）；ROME 模型用 1M+ trajectories 训练，Terminal-Bench 2.0 24.72% / SWE-bench Verified 57.40%；提出 IPA (Interaction-Perceptive Agentic Policy Optimization) 稳定 long-horizon 训练；推出新基准 Terminal Bench Pro 减污染。

HDPO 是过去 6 周 agent RL 训练领域第一篇正面解决"何时停"问题的方法论文——配合 4/19 RLVR Reward Hacking（agent 学会"反复改一个文件骗 reward"）、4/30 Exploration Hacking（LLM 战略性压制自身探索）形成"agent 行为病理学"完整三元组：reward hacking 是奖励作弊、exploration hacking 是抵抗训练、tool-call hyperactivity 是元认知盲区。Metis HDPO 第一次把 metacognitive deficit 从理论假设变成可量化、可优化的训练信号——98% → 2% 这条数字含义远超表面"少调工具 96 个百分点"，它意味着 agent 在被显式训练后能区分 "what I know" vs "what I need to look up"，这条能力是从 LLM 升级到 agent 的关键跃迁，过去的 GRPO / DAPO 训练 recipe 都没显式覆盖。

对生产 agent 部署的现实意义与成本经济学直接相关。当前 frontier agent 平均每个任务消耗 5-15 个 tool call（4/27 OpenAI "How Do AI Agents Spend Your Money?" 报告 30× 跨 run 方差），其中相当比例是不必要的——agent 反复 web 搜索、反复读已读过的文件、反复 grep 已知信息。如果 HDPO 类训练能在 frontier scale 上跑通（Alibaba 论文未公开 Metis 模型规模），agent 的 per-task tool token 成本可能压到当前的 20-40%——这条优化对企业 agent procurement 是结构性。配合 4/30 Inclusion AI Ling-2.6 "Contextual Process Redundancy Suppression"（reasoning trace 压缩）+ 4/27 IBM "Thinking Without Words"（Abstract CoT）+ 4/29 Anthropic Memory for Managed Agents（filesystem 记忆减重复读取），2026 年春天 frontier lab 与开源团队从 4 条独立路线收敛到同一个工程目标：把 agent 的"无效 token 消耗"系统性压低一个数量级。

ALE 三件套（ROCK + ROLL + iFlow CLI）与 ROME / IPA / Terminal Bench Pro 的同步发布是 Alibaba 在过去一年的最完整 agent infra 公开——配合 4/27 OpenAI Symphony（issue tracker 作 control plane）、4/29 Microsoft Synthetic Computers（1000 合成电脑训练）、4/24 Anthropic Project Deal（69 员工 agent marketplace），中美两边 frontier 厂商已经在 agent 工程化的所有四个维度（task generation / training substrate / orchestration / 评测基准）形成各自的完整栈。Terminal Bench Pro 这条新基准特别值得标记——4/26 OpenAI 退役 SWE-bench Verified、4/30 Claw-Eval-Live 持续刷新机制、Alibaba Terminal Bench Pro 减污染设计是同一周三条独立的"反基准污染"工程响应，意味着"基准污染"已从研究者抱怨升级为 frontier lab 系统性建设新基准的工程优先级。需要冷静读：Metis 模型规模 / 训练数据 / 与同档 baseline 的 head-to-head 数字尚未公开。"98% → 2% 冗余 tool call"是单一 metric，需要独立复现验证。

ENTRY 004/010

[ 论文 · 评测 · 长程任务 · 指令执行 · LLM能力诊断 ]

When LLMs Stop Following Steps：14 模型 × 55 数据集长程指令执行系统诊断

(When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution)

→ arXiv:2605.00817

Sailesh Panda / Pritam Kadasi / Abhishek Upperwal / Mayank Singh，5/4 提交。任务设计：纯算术 step-wise 算法——给定两数字输入，模型按步骤执行返回最终值；通过算法长度 + 中间变量回看依赖控制复杂度。实验规模：14 模型 × 55 数据集。核心发现：5 步任务平均首答 61% → 95 步任务 20%——长程严格指令执行能力随步数显著退化。失败模式分类：(1) miss-answer（漏答）；(2) premature termination（中途结束）；(3) self-correction following mistake（错后自我"修正"反而错得更深）；(4) incomplete execution trace（trace 截断）；(5) hallucinated additional steps（编造额外步骤）。论文核心主张：强 reasoning benchmark 表现掩盖了 faithful instruction execution 的根本弱点——模型看似能复杂推理，实际无法忠实执行长链程序。

这条论文是 4/13 Berkeley RDI "agent 50 步漏洞" + 4/27 ClawMark "长程多日 agent 严格成功率仅 20%" + 4/30 Microsoft Synthetic Computers "1000 × 2000 turn × 8h" 训练 substrate 之后第四条"长程任务能力诊断"线——但它把焦点从 agent / 多模态 / 工作流降到最纯粹的 procedural arithmetic execution，剥离所有 tool call / 多模态 / 沟通噪音。61% → 20% 这条退化曲线意味着 LLM 在最简单、最可验证、最无歧义的长链任务上仍然结构性失败——这条结果让"frontier 推理基准 90%+"的乐观叙事蒙上更深一层冷水。配合 4/29 Diabettech 27000 数碳实验"模型自报 confidence 与正确率零相关"、4/27 OpenAI 论文"model self-estimation 相关系数 0.39"，LLM 当前在元认知 + 长程 faithful execution 两条维度都存在系统缺陷——这条认知冲突在 2026 年春天的 frontier 厂商 marketing 与独立学术评测之间已经清晰可见。

5 类失败模式的工程含义值得逐条读。(1) miss-answer + premature termination 暗示当前 frontier 模型在长 trace 生成中存在"放弃倾向"——可能与 RLHF 训练让模型偏向"短简洁回答"有关，长 trace 触发了与 reward function 冲突的隐性 prior。(2) self-correction following mistake 错得更深——这条特别危险：模型试图"修正"已经错的步骤反而引入更多错误，意味着 chain-of-thought 在错误传播下不是 "self-correcting" 而是 "error-amplifying"。这条与 4/19 RLVR Reward Hacking、4/30 Exploration Hacking 形成同一根 deeper concern：reasoning trace 不是单调改进的认知工具，而是可能放大初始错误的反馈系统。(3) hallucinated additional steps——长链任务中模型会编造不存在的步骤填补 context——意味着 chain-of-thought 长度本身可能是"幻觉风险倍增器"。

对正在做 agent 工程的团队 这条论文是直接 calibration：(a) 任何依赖 frontier model 严格按 N 步计划执行的工作流（科学计算 reproducibility / 工程 CI 流水线 / 多步金融计算 / 医疗诊断协议），N>50 时必须有外部 step-wise verification——不能信任模型自己跑完；(b) chain-of-thought 长度不是"越长越准"——95 步 trace 比 5 步 trace 错误率高 3×，应当主动设计任务拆分让每个子任务 ≤20 步；(c) self-correction prompting（"please double-check your answer"）在长 trace 上可能反而增加错误，需要独立 evaluator 而非模型自查。配合 4/26 Anthropic Claude Code Postmortem 强调的 "all system prompt changes require eval sweep"、4/30 Claw-Eval-Live 持续刷新机制、4/30 Exploration Hacking model organism 警告，2026 年春天 LLM 评测方法学正在经历从"单点 accuracy"到"长链 faithful + 元认知 + 抗污染"三维重构——14 模型 × 55 数据集 × 5-95 步这条规模的诊断研究是这场重构的具体实证。

ENTRY 005/010

[ DEEPCLAUDE · LLAMAINDEX · 开源 · VIBE-CODING · SCAFFOLDING · FRONTIER · 成本 ]

DeepClaude（HN 566↑）+ LlamaIndex "95% AI 生成" 宣言：AI coding 工具栈两条同周信号

(DeepClaude Show HN + LlamaIndex CEO on Scaffolding Layer Collapse)

→ GitHub aattaran/deepclaude · → HN · → VentureBeat: scaffolding 层崩塌 · → Beyond the Pilot Podcast

(A) DeepClaude（5/3 Show HN，566↑ / 237 评论）：本地 localhost:3200 proxy 拦截 Claude Code 的 API 调用，重路由到 DeepSeek / OpenRouter / Fireworks AI / Anthropic 等 backend——"swap the brain while keeping the body"。报数字：~17× 成本降低 vs Claude Code $200/月、DeepSeek V4 cache 跨 turn 重复 query 120× cost↓、可在 session 中 live 切换 backend、远程通过浏览器访问 Claude Code session。技术栈 JS / PowerShell / Shell；GitHub 已 768 stars。(B) LlamaIndex Jerry Liu Beyond the Pilot 访谈（5/2 发布）：(1) "约 95% LlamaIndex 代码已是 AI 生成，工程师不真正写代码"；(2) "scaffolding 层正在崩塌"——索引层 / 查询引擎 / 检索 pipeline / 精心编排的 agent loop 正被 frontier 模型直接吞掉，"开发者不再需要这些 framework 帮助 compose deterministic workflow"；(3) retrieval 已演化为 "agent + sandbox"；(4) "don't bet on any one frontier model"——多 vendor / 模块化 / 可扔掉的栈是企业架构必须；(5) 警告 builder 不要被 Anthropic 等"session lock-in"绑定。

DeepClaude 与 LlamaIndex 宣言这两条同周事件给"AI coding 工具栈下一年走向"提供具体数据点——表面看是两条独立故事（一条是 hacker 侧 cost optimization 工具、一条是 RAG framework CEO 的战略反思），合起来是同一根叙事的两面。DeepClaude 是 "frontier model commodity 化" 的产品级证据：4/24 DeepSeek V4 / Kimi K2.6 / Qwen3.6-Max-Preview 等开源模型已在多数 coding 基准上接近 Opus 4.7、SWE-bench Pro 缩到 1-9 个百分点；DeepClaude 把这条 commodity 化转成消费级产品——同样的 Claude Code 工具体验 + 1/17 成本。这条产品形态意味着 Anthropic 的 Claude Code $200/月订阅不再有 "Claude Code 是唯一选择" 的护城河——只要 frontier 开源模型继续追近，DeepClaude / LiteLLM / OpenRouter 类 proxy 工具会持续蚕食 Anthropic 的 prosumer 收入。Anthropic 的合理回应是用 4/25 Claude Code Skills + 5/4 Claude Security 这类 frontier-only 功能锁住 Enterprise 客户，让 prosumer 流失成为"可接受的价格"。

LlamaIndex "scaffolding 层崩塌" 论是过去 18 个月最具 self-disruption 含义的 framework CEO 公开发言——比 Mistral 4/29 "merged model" 主张 + Microsoft 4/30 Synthetic Computers + OpenAI 4/27 Symphony 更激进。Jerry Liu 是过去三年 RAG framework 商业化的标志人物，他公开承认 LlamaIndex 自己的 framework 抽象将被 frontier 模型直接吞掉，相当于公开宣告"过去三年我们解决的问题，frontier 模型在用 capability scaling 把它变成不存在"。这条认知诚实度高于 LangChain / Haystack / DSPy 等竞品同类发言——意味着 RAG framework / agent loop framework 的市场窗口可能在 2026-2027 实质性收窄，未来这一层会被 (a) frontier 模型 native capability + (b) 极薄的 model-agnostic routing layer（LiteLLM / OpenRouter / DeepClaude）+ (c) 应用层抽象（acai.sh Specsmaxxing / Symphony 这类 spec-driven）三方瓜分。Liu 公开建议 "don't bet on any one frontier model + 模块化 + 可扔掉" 的工程哲学，对企业 AI 团队是直接战略指引——任何把 frontier API 直接散布在业务代码里的栈在未来 12 个月都会成为技术债。

95% AI 生成代码 这条数字本身值得标记。LlamaIndex 是 4M+ monthly downloads 的核心 AI 框架；如果 95% 代码 AI 生成的 framework 仍能保持 production quality，配合 4/30 Apple CLAUDE.md 泄漏 / 4/27 OpenAI Symphony "100% agent-written codebase" 内部实验 / 4/29 Mistral Vibe Remote Agents / 4/26 Anthropic Claude Code 自报 4M users，"AI 辅助 vs 人类辅助 AI 编码"的边界在 2026 春天已经实质性逆转——主流叙事不再是"工程师用 AI 帮忙"，而是"工程师 review + 引导 AI 写主体代码"。这条范式转换对软件工程职业定位的长期影响远超 framework 商业化窗口的近期问题。需要冷静读：Liu 的 "95%" 数字未公开测算方法论——是按 commit 行数？按 PR 数？按 file 数？是否包含 boilerplate / 测试 / docs？不同测算方法可能给出 70-99% 的不同数字，但结论方向（"代码已大规模 AI 生成"）独立于具体百分比。

ENTRY 006/010

[ SALESFORCE · AGENTFORCE · 企业 · AGENT · 编排 · DETERMINISTIC ]

Salesforce Agentforce Operations：deterministic 编排重塑企业 back-office

(Salesforce Launches Agentforce Operations to Eliminate Back-Office Bottlenecks)

→ Salesforce 公告 · → SiliconANGLE · → Constellation Research · → MarTech · → Salesforce Spring 2026 Release

4/29 Salesforce 公开 Agentforce Operations GA（5/1 媒体扩散），ecosystem 集成（auto-sync 数据 + Salesforce Flows trigger）2026-05 进入 beta。核心架构差异：与 OpenAI Workspace Agents / Anthropic Project Deal / Mistral Vibe 等 "agent 自决定 next action" 路线相反——Agentforce Operations 用 deterministic 结构强制执行预定义 workflow，不让 agent 自行 routing。组件：(1) Specialized Agents（从复杂文档抽数据 / 跑计算 / 更新 credit model / 识别合规 gap）；(2) Blueprints——基于 unstructured 流程文档生成 AI agent 工作模板，30 个 out-of-box 模板覆盖常见流程；(3) Instant Blueprints——从 unstructured 文档或白板草图分钟级转换为可执行 workflow；(4) Agent 主动 flag 瓶颈 + audit trail 持续改进，自然语言更新流程；(5) 用户通过 email + Slack / Teams（6 月）交互。报性能：审计 / onboarding cycle time 降 50-70%，data entry 类 manual task 降 80%。架构基础：基于 Salesforce 收购的 Regrello（供应链流程自动化）扩展到全行业。用例：制造业供应链协调（库存 / 审批 / 供应商同步）、金融 underwriting（数据抽取 / 验证 / 缺失追踪）、保险理赔（intake / validation / file 装配）。客户验证：Siemens Digital Industries Software CFO 引用集成 Agentforce 360 平台后实时跨前后端 customer profile。

Agentforce Operations 与 4/24 Anthropic Workspace Agents、4/27 OpenAI Symphony、4/29 Anthropic Memory for Managed Agents、4/30 Microsoft Synthetic Computers 形成 2026 春天企业 agent 平台五雄竞争——但 Salesforce 这条产品的差异化最值得标记：它是唯一公开宣告"deterministic 而非 probabilistic"路线的 frontier 厂商 agent 平台。Anthropic Workspace / OpenAI Symphony / Mistral Vibe 都让 agent 自决定 next action（区别只在 control plane 是 ticket / spec / 还是 chat）；Salesforce 反过来——用 Blueprints 把工作流硬编码为预定义的 deterministic 结构，agent 只在每个节点内做局部决策。这条架构选择与 Salesforce 客户基础（金融 / 保险 / 制造 / 政府等强合规 / 强可审计行业）契合——"agent 自由探索"在监管严格行业是不能接受的不确定性源。

与传统 BPM (Business Process Management) 工具的对比值得拆开看。Pega / Appian / Camunda / IBM BPM 等传统 workflow 工具早就提供 deterministic 流程编排；Agentforce Operations 真正的差异化在 Instant Blueprints ——把 unstructured 流程文档（PDF / 白板照片）分钟级转换为可执行 deterministic workflow。这条能力如果能跑通生产级（精度 / 可维护性 / 可审计性），意味着企业 BPM 项目的开发周期从月级压到小时级——传统 Pega / Appian 项目通常需要业务分析师 + 流程工程师协作 4-12 周才能上线一条新 workflow，Salesforce 的 Instant Blueprints 把这条耗时压到分钟级。这条 productivity 跳跃的真实落地需要 6-12 个月独立验证；如果 Siemens 等大客户在 6 个月内复盘"Instant Blueprint 的实际维护成本 vs 手工 BPM"，结果会决定 Pega / Appian 等传统 BPM 厂商是否被 Salesforce + Agentforce 联合方案系统性蚕食。

Regrello 收购的战略价值与 Salesforce 整体 agent 路线契合——Regrello 是供应链流程自动化专精厂商，把它的"流程 ontology + B2B 协作 protocol"嫁接到 Agentforce 让 Salesforce 在企业内部 + B2B 跨企业流程编排上形成端到端覆盖。配合 4/24 Anthropic Project Deal（69 员工 marketplace agent）、4/27 OneManCompany（"AI 公司"组织架构），2026 春天企业 agent 不再是"个人助理"而是"组织流程层" ——这条范式转换的赢家是把 agent 与 enterprise workflow / 合规 audit / 审批链 deeply 集成的厂商，而不是单纯优化 agent reasoning capability 的 frontier lab。需要冷静读："50-70% cycle time 降"是 Salesforce 自报数字，独立 case study 仅 Siemens 一家公开。MarTech 等媒体也指出 Salesforce 多年 marketing 习惯于报"upper bound" gain，企业 procurement 应当要求 vendor 提供"reproducible reference customer"做实测。

ENTRY 007/010

[ 论文 · BENCHMARK · MATERIALSCIENCE · AIFORSCIENCE · AGENT ]

AutoMat：编码 agent 在材料科学复现仅 54.1%——AI for science 的能力缺口实证

(Can Coding Agents Reproduce Findings in Computational Materials Science?)

→ arXiv:2605.00803

Ziyang Huang / Yi Cao 等，5/4 提交。任务定义：评估 LLM coding agent 能否复现 peer-reviewed 计算材料科学论文的 claim——评测三大复合难点：(1) 从论文文本恢复 underspecified 计算流程；(2) 导航专业 toolchain（DFT / MD / phonon / electronic structure 包）；(3) 判断 reproduce 出的证据是否真正支持原论文 claim。Setup：与领域专家协作 curate 真实论文 claim，多 agent + 多 foundation model 配置端到端工作流复现。核心结果：最高 agent 配置 success rate 仅 54.1%——相对其他 SE 任务上的高分（SWE-bench Verified 79%+），在科学复现上能力显著缺失。失败模式：(1) 工作流必须从论文文本重构时失败最严重；(2) 主要原因是流程描述不完整 + 方法学偏移 + 执行 fragility。双重定位：既是 reproducibility benchmark 也是 agent 系统科学能力诊断工具。

AutoMat 是 5/01 Eywa（科学 FM 与 LLM agent 共生框架）之后第二条针对 "AI 在科学场景的能力缺口" 的工程实证——但角度更具体：不是抽象的 "LLM agent 不够强"，而是把"复现已发表论文" 这个对人类研究者也不易、但应当 trivial 的任务作为 ground truth 评测。54.1% 这条数字 在 SE 任务背景（SWE-bench Verified 79%+ / SWE-bench Pro 60%+）下是显著退化——意味着 agent 在 "工程上跑得通的代码" 与 "科学上正确复现的实验" 这两条标准之间存在结构性 gap。SE 任务有清晰的 spec（issue + test）；科学 reproducibility 任务的 spec 散布在论文文本中，且论文作者从未为复现而精心编写 spec——这条 spec ambiguity 是 AutoMat 揭示的核心难题。

"workflow 必须从论文文本重构时失败最严重" 这条具体失败模式与 5/4 同期 "When LLMs Stop Following Steps" 论文的"长程严格执行能力缺失"形成同一根问题的两面。论文文本里描述的实验通常 50-200 步（数据准备 / 模型构建 / 参数选择 / 计算执行 / 后处理 / 统计分析），按 "When LLMs Stop Following Steps" 的 5 步 61% → 95 步 20% 退化曲线，agent 在 50-200 步任务上的 faithful execution 概率本就在 10-30% 区间——AutoMat 的 54.1% 可能因为 LLM 用领域先验"猜"了部分流程而高于纯 procedural execution——但这条"猜"本身也是 hallucination 风险源（论文的 "method deviation" 失败模式）。两条论文叠加给 AI for science 部署画下底线：未来 12 个月任何"AI 自动复现 / AI 自动做实验 / AI 自动写论文"产品 claim 都应当被默认假设有 40-50% 失败率，需要严格 human-in-the-loop。

对 AI for science 工具栈 这条结果是直接 calibration：(a) AutoMat 应作为新 benchmark 与 SWE-bench Pro / Terminal-Bench 2.0 / Claw-Eval-Live 并列纳入 frontier model evaluation；(b) 复现失败的 root cause 是 spec ambiguity ——长期 fix 不是训更强 model，而是让论文 publish 时附带可执行 spec（与 4/30 acai.sh Specsmaxxing 思路对齐）；(c) 领域专家 + agent 协作而非完全自动——配合 5/01 Eywa "EywaAgent / EywaMAS / EywaOrchestra" 三档集成模式，AutoMat 数字暗示 EywaOrchestra（人类 planner + agent worker）可能是当前最现实的 AI for science 路径。需要冷静读：论文未公开测试的具体 foundation model（GPT-5.5？Opus 4.7？DeepSeek V4 Pro？），54.1% 是 "best agent configuration" ——其他配置可能远低于这条数字。完整结果开源 + 第三方独立复现需等 1-2 个月。

ENTRY 008/010

[ 论文 · APPLE · ICLR · RNN · SSM · 架构 ]

Apple ICLR 2026：ParaRNN（665× speedup）+ Tool-Use 解锁 SSM 长度泛化

(Apple Machine Learning Research at ICLR 2026)

→ Apple ML Research at ICLR 2026

Apple 在 ICLR 2026 公开两篇 Oral：(A) ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models——传统非线性 RNN 因为时间依赖只能 sequential 训练，ParaRNN 提出可并行化训练算法，报 665× speedup vs 传统 sequential 方法，让非线性 RNN 在 LLM scale 上变可行。(B) To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models——SSM（Mamba / Mamba-2 / S4 等）在 long-context 上虽线性复杂度，但在长度泛化上有结构限制；论文证明给 SSM interactive 访问外部 tool 后这条限制被显著缓解——把 "input 长度泛化"问题转化为 "agent 工具调用"问题。

Apple 这两篇 ICLR 2026 Oral 是 frontier 架构研究在 2026 春天 transformer 主导格局下的两条独立"反主流"路径。ParaRNN 解决的是非线性 RNN 训练的可扩展性——这条架构在 transformer 之前是主流（LSTM / GRU），后来因为不能并行训练被淘汰。665× speedup 这条数字让非线性 RNN 重新进入 LLM-scale 训练可行域，配合 Mamba / RWKV / RetNet 等新架构形成 "transformer 之外的可行架构" 多元化压力。这条研究的真正含义是 Apple 在长期主张"on-device AI"路线的背景下，主动探索更适合移动端推理的 architecture——非线性 RNN 在 inference 时的内存占用 / 能耗特性可能优于 attention 类架构。如果 Apple 后续把 ParaRNN 训练的模型用在 iPhone / Mac 端的 Apple Intelligence，意味着端侧 AI 的 architecture 选择正在从 "transformer 不变 + 模型越来越小" 转向 "重新设计 architecture 适配硬件特性"。

"Tool-Use Unlocks Length Generalization in SSM" 是更具系统性意义的结果。SSM 架构（Mamba 系列）过去 18 个月一直被认为在长上下文上结构性优于 attention（线性复杂度 + 选择性 state 更新），但实际部署中遇到长度泛化问题——训练时 8K context 的 Mamba 在推理 32K 时性能下降。Apple 论文给出的 fix 不是"在更长 context 上重训"而是**"给 SSM 接 tool 把超出训练长度的部分外包出去"**。这条思路与 4/29 Anthropic Memory for Managed Agents（filesystem-mounted 记忆）、4/30 Inclusion AI Ling-2.6 "Contextual Process Redundancy Suppression" 形成同一根工程主张：LLM 不应承担"无限上下文"的全部记忆与处理负担，外部 tool / filesystem / agent 应作为 capacity 扩展层。这条共识在 2026 春天已经从 frontier lab 工程实践上升为 ICLR Oral 级别的架构研究主张——意味着未来一代基础架构（不只是 SSM，还包括下一代 transformer 变体）可能 native 设计为 "with tool access" 而非 "monolithic context"。

对 frontier 架构竞争这两篇论文的位置值得拆开看。Apple 在过去一年 frontier capability 竞赛中明显落后 OpenAI / Anthropic / Google（4/30 Apple CLAUDE.md 泄漏证实 Apple 内部用 Claude Code 而非自家 Apple Intelligence），但在架构基础研究 + 端侧推理优化上持续投入。ParaRNN + Tool-Use SSM 两条路径都不是"追赶 frontier capability"的直接尝试，而是"重新定义未来 5 年架构 baseline"的长线投入——这条战略选择对 Apple 长期价值高于短期 frontier 竞争力。配合 2 月 Xcode 26.3 集成 Claude Agent SDK + 4/30 内部 Juno AI 平台曝光，Apple 的"前 frontier 用 Claude 借力 + 长线架构自研"双轨策略已经清晰；2027-2028 如果 Apple Intelligence 跑在 ParaRNN 训练的非线性 RNN 上 + tool-augmented SSM context 扩展，这条架构差异化可能让 Apple 在端侧 AI 上重新拿到结构性领先。需要冷静读：两篇论文均未给出与 frontier transformer 直接对比的 absolute capability 数字——665× training speedup 不等于推理质量超过 transformer，"tool-use unlocks length generalization" 不等于 SSM 的长上下文能力超过 attention。学术贡献明确，product 含义需要 6-12 个月落地验证。

ENTRY 009/010

[ 医疗 · LLM · 临床试验 · HARVARD · 研究 ]

OpenAI o1 在 Harvard ER triage 试验中 67% 正确诊断 vs 人类医生 50-55%

(AI Outperforms Doctors in Harvard Trial of Emergency Triage Diagnoses)

→ HN

4/30 The Guardian 报道 Harvard 临床试验：OpenAI o1 在急诊室 triage 诊断上正确率 67%，对照 triage 医生 50-55%——AI 比有限时间窗内 triage 医生在初步诊断上显著领先。HN 451↑ / 394 评论。试验细节（详情未在搜索结果完整呈现）：研究方法学、样本量、模型版本（o1 已是 OpenAI 的旧 SKU——2024 年下半年 reasoning 模型，对应 GPT-5.5 之前的 reasoning 路线）、患者隐私 / 监管框架等需要等论文 release。

这条结果对 frontier LLM 在医疗的应用是 2026 春天第一份 Harvard 级别 + 真实 ER 场景 + frontier model（虽是 o1 而非 GPT-5.5）正面对比 triage 医生的临床试验数据。67% vs 50-55% 这条 gap 在医疗 AI 文献里是显著的——传统 ML 诊断模型（CheXpert 类胸片诊断、皮肤病变分类）通常报"on par with specialist"或微弱优势；frontier LLM 在初诊 triage 上跑出 +12-17 pp 是结构性突破。但这条结果必须配合 4/29 Diabettech 27000 数碳实验"Gemini 2.5 Pro 最坏胰岛素误差 42.9 单位"读——LLM 在医疗的能力呈现"初诊 triage 优于人 / 持续治疗决策远低于人"的二元分布，前者是 pattern matching + 知识广度任务（LLM 优势），后者是 long-horizon faithful execution + 数值精度任务（5/4 "When LLMs Stop Following Steps" 揭示的弱点）。

对医疗 AI 部署的现实意义是分场景的。Triage 是一次性 cross-sectional 决策 + 错误成本可被后续诊断纠正——LLM 在这条任务上 17 pp 优势已经足以让医院 ROI positive（减少误分诊导致的延迟治疗）。胰岛素剂量、慢病管理、手术决策是多步 longitudinal + 错误成本立即致命——LLM 在这条任务上的能力远未到部署阈值。这条二元分布建议医疗 AI 厂商（OpenAI GPT-Rosalind / Anthropic Claude for Life Sciences / Google MedLM）的产品策略应当优先在 triage / 初诊 / 知识问答类场景落地，避开剂量计算 / 实时治疗调整。需要冷静读：Harvard 试验的样本量、纳入 / 排除标准、对照 triage 医生的资历分布、67% / 50-55% 的 confidence interval 都未在搜索结果完整呈现。Guardian 报道倾向 headline-friendly 数字，独立同行评议论文 release 后这条数字可能因为方法学审视而缩水或扩大。HN 评论 394 条主要分两派：(a) 临床医生质疑 ER triage 复杂度被简化、(b) AI 工程师质疑用 o1 而非 GPT-5.5 是 deliberate sandbagging。两类质疑都有合理性，结论的稳定性依赖完整方法学公开。

ENTRY 010/010

[ 开源 · GITHUB · TRENDING · 多AGENT · 金融 · TTS ]

TauricResearch/TradingAgents 单日 +2,181 stars：Multi-Agent LLM 金融框架开源生态信号

(TradingAgents Goes Viral on GitHub)

→ TauricResearch/TradingAgents

GitHub Trending Python Daily 第一名，单日 +2,181 stars / 总 66,605 stars。定位 "Multi-Agents LLM Financial Trading Framework"——多个 LLM agent（如 Fundamental Analyst / Technical Analyst / Risk Manager / Trader 等专精角色）协作完成交易决策。配合同期 GitHub trending Python AI 项目：AIDC-AI/Pixelle-Video AI 自动短视频引擎单日 +1,172、OpenBMB/VoxCPM tokenizer-free 多语种 TTS +383、LearningCircuit/local-deep-research 本地 deep research 跑出 ~95% SimpleQA +143、Q00/ouroboros Spec-driven Agent OS +102、raullenchai/Rapid-MLX Apple Silicon 本地 AI "4.2× faster than Ollama" +161。

TradingAgents 单日 +2,181 stars 是 GitHub trending Python 历史上罕见的爆发量级，与 4 月 Microsoft qlib (+643/周) 形成"AI 金融两条独立轨道"——qlib 是 Microsoft 维护的 quant research platform，偏 traditional ML；TradingAgents 是 multi-agent LLM 框架，偏 agentic 决策。两条同期升温说明 agentic AI 在金融 / 量化领域的应用兴趣在 2026 春天进入加速阶段，配合 5/3 HN 41↑ "How Kepler built verifiable AI for financial services with Claude" 类企业 case study，金融业 frontier AI 部署正在从"客服 chatbot / 文档摘要"升级到"agent 主导的决策系统"。

值得标记的同期开源生态信号：(a) Pixelle-Video AI 短视频自动引擎 +1,172/day——配合 LTX-2 / Sora 类视频生成模型工程化，"完整短视频自动 pipeline"成为新热点；(b) VoxCPM tokenizer-free 多语种 TTS 持续刷新——4/24 简报覆盖的 VoxCPM2 演化路线；(c) local-deep-research 95% SimpleQA + Rapid-MLX 4.2× faster than Ollama——本地 AI 工具栈在 macOS / Apple Silicon 上的成熟度跳跃，配合 4/30 简报覆盖的 TIDE 0.6B student 蒸馏 / 4/22 OpenAI Privacy Filter 端侧脱敏，端侧 AI 工具链在 2026 春天进入 production-ready 阶段；(d) Q00/ouroboros "Spec over prompting" Agent OS——与 5/3 HN 271↑ acai.sh Specsmaxxing 同根的 spec-driven 工程主张正在形成开源生态共识。

TradingAgents 框架本身的工程含义需要冷静读。Multi-agent 金融决策框架的论文 / 开源版本过去 18 个月已经多次出现（FinGPT / FinAgents / TradeAgent 等），TradingAgents 的爆发度可能更多反映散户对"用 LLM 自动炒股"叙事的强烈关注，而非框架本身的 production 价值。任何"用 multi-agent LLM 直接做交易"的工具在监管严格 + 风控严格的真实金融市场都需要谨慎对待——配合 5/4 "When LLMs Stop Following Steps" 揭示的长链 faithful execution 缺陷，LLM agent 在多步金融决策中错误传播风险显著高于人类 trader。GitHub stars 涨幅是社区兴趣信号，不等于工程质量信号。监管层面：SEC / FINRA / 各国证监会对 "AI 自动决策交易系统" 的监管框架仍在制定，散户使用此类框架做实盘可能违反 broker 服务条款。

其他值得关注

Specsmaxxing — On overcoming AI psychosis, and why I write specs in YAML (HN 271↑) — acai.sh blog
Kimi K2.6 just beat Claude, GPT-5.5, and Gemini in a coding challenge (HN 368↑) — thinkpol.ca
Agentic Coding Is a Trap (HN 398↑) — larsfaye.com
The 'Hidden' Costs of Great Abstractions (HN 198↑) — jdgr.net
Mistral Vibe Remote Agents 5/01 持续扩散 — mistral.ai | Medium 3.5 + Vibe + Le Chat Work Mode（已在 04-30 简报覆盖，5/01-5/03 媒体扩散持续） — mistral.ai
DeepSeek V4 第三方独立基准 — Best AI Models May 2026 Leaderboard (BuildFastWithAI) | V4-Pro vs Opus 4.7 SWE-bench Pro 55.4 vs 64.3 — Best AI Models May 2026 Leaderboard (BuildFastWithAI)
Web2BigTable: Bi-Level Multi-Agent LLM for Internet-Scale Search (HF Papers 23↑) — arXiv:2604.27221
UniVidX: Unified Multimodal Framework for Video Generation (HF Papers 65↑，今日最高) — arXiv:2605.00658
GeoContra: Verifiable Spatial Analysis with Geography-Grounded Repair — arXiv:2605.00782 | LLM-driven GIS workflow 47.6→77.5% — arXiv:2605.00782
When RAG Chatbots Expose Their Backend — arXiv:2605.00796 | 医疗 RAG chatbot system prompt 泄漏 — arXiv:2605.00796
LightKV: Make Your LVLM KV Cache More Lightweight — arXiv:2605.00789 | vision-token KV cache 50% 压缩 — arXiv:2605.00789
Learning while Deploying: Fleet-Scale RL for Generalist Robot Policies (HF Papers 8↑) — arXiv:2605.00416
Trees to Flows and Back: Unifying Decision Trees and Diffusion Models — arXiv:2605.00414 | TUM 团队跨范式统一 — arXiv:2605.00414
Kepler with Claude: verifiable AI for financial services (HN 41↑) — claude.com blog
行业动态：Maryland 立法禁止杂货店 AI-driven price increases（HN 228↑）；Oscars 禁 AI 获最佳表演与编剧（HN 75↑）；Mercedes 取消触屏改回物理按钮反 AI 化车舱设计（HN 786↑，间接反映对 AI 助手 UI 的逆反）

← 2026.05.02 2026.05.05 →