一日三饭 | HARNESS

[ HERO · LATEST DIGEST 2026.06.19 ]

Z.AI GLM-5.2 开放 1M context 编码/agent 模型：官方 release notes 标注 1M lossless context、长程任务与深度调试能力增强；HF trending 显示权重已以 MIT license 上线，成为本周最重要的开源 frontier 候选。
OpenAI 连发生命科学研究闭环与评测基准：GPT-5.4 接入 Molecule.one Maria Lab，在 10,080 次实验中改进 Chan-Lam coupling；LifeSciBench 用 750 个专家任务、19,020 条 rubric 评估真实生命科学研究能力。
agent 安全从 prompt safety 转向系统控制：OpenAI Deployment Simulation 用历史会话重放预测部署行为，DeepMind AI Control Roadmap 把内部 agent 当作潜在 insider threat，并已分析 100 万条 coding agent 轨迹。
GitHub Copilot 生态继续平台化：Agent finder 采用 ARD 规范做能力发现，MAI-Code-1-Flash 扩展到 CLI、Copilot app、IDE 和移动端，Copilot code review 开始读取仓库级 AGENTS.md。
今日 HF Papers 的核心信号是小模型/工具化 agent：Moebius 用 0.22B 参数达到 10B 级图像修复质量，RATs、S-Agent、FAPO 和 agent benchmark 论文都把能力增长放在可复用技能、工具轨迹和评测有效性上。

→ 2026.06.19 全文

◉ 2026.06 ◉

[ GLM · 开源模型 · LONGCONTEXT · CODINGAGENT · MOE ] 06.19

Z.AI GLM-5.2：1M lossless context 的开源 coding / agent 模型

GLM-5.2

→ Frontier Release / HF Models / X

[ OPENAI · 科学发现 · AIFORSCIENCE · AGENT · 实验自动化 ] 06.19

GPT-5.4 近自治 AI 化学家改进 Chan-Lam coupling

A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry

→ Research Blog / AI News

[ BENCHMARK · LIFESCIENCE · GPT-ROSALIND · 评测 · AIFORSCIENCE ] 06.19

LifeSciBench：面向真实生命科学工作的专家评测基准

Introducing LifeSciBench

→ Research Blog

[ 安全评测 · DEPLOYMENTSAFETY · AGENT · 评测方法 · OPENAI ] 06.19

Deployment Simulation：用部署重放预测模型上线后的行为

Predicting model behavior before release by simulating deployment

→ Research Blog

[ AGENTSAFETY · SECURITY · DEEPMIND · AICONTROL · CODINGAGENT ] 06.19

Google DeepMind AI Control Roadmap：把内部 agent 当作 insider threat 管理

Securing the future of AI agents

→ Research Blog / AI News

[ GITHUBCOPILOT · ARD · MCP · AGENT · 工具生态 ] 06.19

GitHub Copilot Agent Finder：用 ARD 规范做 agent 能力发现

Agent finder for GitHub Copilot

→ Research Blog / Frontier Release

[ GITHUBCOPILOT · MICROSOFTAI · CODINGMODEL · IDE · DEVELOPERTOOLS ] 06.19

MAI-Code-1-Flash 扩展到更多 Copilot surfaces

MAI-Code-1-Flash available on more Copilot surfaces

→ Frontier Release / Research Blog

[ GITHUBCOPILOT · CODEREVIEW · AGENTS.MD · DEVELOPERWORKFLOW ] 06.19

Copilot code review 开始读取仓库级 AGENTS.md

Copilot code review: AGENTS.md support and UI improvements

→ Research Blog

[ MCP · GITHUBISSUES · AGENTWORKFLOW · TRIAGE · DEVELOPERTOOLS ] 06.19

GitHub Issues 支持重复 issue 检测与 MCP issue fields

Detecting Duplicate Issues and issue fields MCP support

→ Research Blog

[ DIFFUSION · IMAGEINPAINTING · 模型压缩 · 蒸馏 · 论文 ] 06.19

Moebius：0.22B 图像修复模型达到 10B 级质量

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

→ HF Papers / arXiv

[ ROBOTICS · AGENT · SKILLLIBRARY · CODEASPOLICY · 论文 ] 06.19

RATs：用自发 play 学习可复用机器人技能

Playful Agentic Robot Learning

→ HF Papers / arXiv

[ VLM · SPATIALREASONING · 3D · TOOLUSE · 论文 ] 06.19

S-Agent：把 VLM 变成带空间工具和记忆的 3D reasoning agent

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

→ HF Papers / arXiv

[ AGENTEVAL · BENCHMARK · MCP · 评测方法 · 论文 ] 06.19

Agent 评测从静态榜单转向 predictive validity

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

→ HF Papers / arXiv

[ PROMPTOPTIMIZATION · LLMPIPELINE · CLAUDECODE · AGENT · 论文 ] 06.19

FAPO：让 coding agent 自主优化多步 LLM pipeline

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

→ HF Papers / arXiv

[ CODINGAGENT · REPOSITORYEXPLORATION · MICROSOFT · 小模型 · TOKENEFFICIENCY ] 06.19

FastContext：为 coding agent 训练专用仓库探索模型

FastContext: Training Efficient Repository Explorer for Coding Agents

→ HF Papers / HF Models

[ OPENSOURCE · AGENT · VIDEOGENERATION · WORKFLOW · GITHUB ] 06.19

OpenMontage：开源 agentic video production system

OpenMontage

→ GitHub

[ CODINGAGENT · CODESEARCH · AST · TOKENEFFICIENCY · GITHUB ] 06.19

CocoIndex Code：面向 coding agent 的轻量 AST 代码搜索

cocoindex-code

→ GitHub

[ ANTHROPIC · FRONTIERMODEL · LONGCONTEXT · AGENTHARNESS · SAFETY ] 06.13

Claude Fable 5 / Mythos 5：Mythos-class 模型与分类器路由安全架构

Claude Fable 5 and Claude Mythos 5

→ Frontier Release / Anthropic / HN

[ GOOGLE · DIFFUSIONLM · 开源模型 · 推理加速 · 本地部署 ] 06.13

Google DiffusionGemma：开源文本扩散模型，并行去噪换取 4× 生成速度

DiffusionGemma

→ Frontier Release / Research Blog / HF Models / AI News

[ MOONSHOT · CODINGAGENT · 开源模型 · MOE · 推理成本 ] 06.13

Moonshot Kimi K2.7 Code：1T MoE 编码模型，主打砍 30% reasoning token

Kimi K2.7-Code

→ Frontier Release / HF Models / AI News

[ SPARSEATTENTION · LONGCONTEXT · 推理优化 · MOE · 论文 ] 06.13

🔄 进展更新：MiniMax Sparse Attention (MSA) 技术报告，M3 背后内核首次披露

MiniMax Sparse Attention

→ HF Papers / arXiv

[ 数学推理 · RL · TESTTIMESCALING · 形式化证明 · 论文 ] 06.13

MaxProof：population-level test-time scaling 把数学证明推过金牌线

MaxProof

→ HF Papers / arXiv

[ AGENT · MEMORY · BENCHMARK · 评测 · 论文 ] 06.13

EvoArena / EvoMem：评测 agent 在动态环境下的"记忆演化"

EvoArena

→ HF Papers / arXiv

[ COMPUTERUSE · AGENT · BENCHMARK · GUI · 论文 ] 06.13

WeaveBench：GUI + CLI 混合界面的长程 computer-use agent 基准

WeaveBench

→ HF Papers / arXiv

[ 多模态 · 图文生成 · AGENT · RL · 论文 ] 06.13

InterleaveThinker：用多 agent + RL 做图文交错生成

InterleaveThinker

→ HF Papers / arXiv

[ SEARCHAGENT · 数据合成 · REWARDHACKING · 评测 · 论文 ] 06.13

FORT-Searcher：合成"抗捷径"搜索任务，治 search agent 的偷懒

FORT-Searcher

→ HF Papers / arXiv

[ AGENTSECURITY · SKILL · 供应链安全 · 静态分析 · 开源 ] 06.13

NVIDIA SkillSpector：扫描 AI agent skill 漏洞的安全扫描器

NVIDIA/SkillSpector

→ GitHub

[ AUTOML · RESEARCHAGENT · NANOCHAT · 开源 · AGENT ] 06.13

karpathy/autoresearch：让 agent 整夜自动跑 ML 研究实验

autoresearch

→ GitHub

[ AGENTRUNTIME · DURABLEWORKFLOW · OBSERVABILITY · 开源 · HITL ] 06.13

Agentspan：把 AI agent 跑成可恢复的 durable workflow

Agentspan

→ Product Hunt / 开源

[ AGENTSECURITY · 成本控制 · POSTMORTEM · HITL · DEVOPS ] 06.13

AI agent 自主扩容刷出 $6531 AWS 账单：agent 成本失控的教训

AI agent bankrupted their operator while trying to scan DN42

→ HN / 工程复盘

[ ANTHROPIC · AIGOVERNANCE · DISTILLATION · 透明度 · POSTMORTEM ] 06.13

Anthropic 为 Fable 5"隐形蒸馏护栏"致歉并改为可见回退

Anthropic apologizes for invisible Claude Fable guardrails

→ AI News / HN / Postmortem

[ OPENAI · CODEX · AGENT · KNOWLEDGEWORK · PLUGIN ] 06.03

Codex 扩展到 role-specific plugins、Sites 与 annotations

Codex for every role, tool, and workflow

→ Frontier Release / OpenAI

[ OPENAI · AWS · BEDROCK · CODEX · ENTERPRISEAI ] 06.03

OpenAI frontier models 与 Codex 在 AWS 上一般可用

OpenAI frontier models and Codex are now available on AWS

→ Frontier Release / OpenAI / AWS

[ MINIMAX · LLM · CODINGAGENT · LONGCONTEXT · MULTIMODAL ] 06.03

MiniMax M3：frontier coding、1M context 与原生多模态合并到同一模型

MiniMax M3

→ Frontier Release / Research Blog / Reddit

[ MICROSOFT · COPILOT · AGENT · MCP · ENTERPRISEAI ] 06.03

Microsoft Work IQ APIs：让企业 agent 直接访问 Microsoft 365 语义工作上下文

Announcing the new Work IQ APIs

→ Frontier Release / Microsoft

[ NVIDIA · MICROSOFT · LOCALAGENT · WINDOWS · SANDBOX ] 06.03

NVIDIA 与 Microsoft 推出 Windows 本地 agent sandbox / runtime stack

Build Personal AI Agents on Windows PCs with New Tools from Microsoft and NVIDIA

→ Research Blog / NVIDIA / Microsoft

[ ANTHROPIC · CYBERSECURITY · CLAUDE · AGENTSECURITY · PROGRESSUPDATE ] 06.03

🔄 进展更新：Anthropic 扩展 Project Glasswing 并推出 Claude Security

Expanding Project Glasswing

→ Frontier Release / Anthropic

[ GITHUB · AGENT · CONTEXTENGINEERING · MCP · TOKENOPTIMIZATION ] 06.03

Headroom：面向 AI agents 的本地可逆上下文压缩层

Headroom

→ GitHub / HN

[ VLLM · RLHF · POSTTRAINING · SERVING · INFERENCE ] 06.03

vLLM Native RL APIs：把 weight syncing 与 async RL 接入 serving runtime

Native RL APIs in vLLM

→ Research Blog / vLLM

[ 论文 · POSTTRAINING · DISTILLATION · LLM · RL ] 06.03

Trust Region On-Policy Distillation：用 trust region 稳定 OPD token-level supervision

Trust Region On-Policy Distillation

→ HF Papers / arXiv

[ 机器人 · HUMANOID · MOTIONCONTROL · TRANSFORMER · 论文 ] 06.03

Humanoid-GPT：用 2B-frame motion corpus 训练 GPT-style whole-body controller

Humanoid-GPT

→ HF Papers / arXiv

[ AGENT · MEDICALAI · BENCHMARK · EVALUATION · 论文 ] 06.03

AutoMedBench：五阶段评测 medical AutoResearch agent 的可靠性

AutoMedBench

→ HF Papers / arXiv

[ WORLDMODEL · MULTIMODAL · REASONING · DISTILLATION · 论文 ] 06.03

World Models Meet Language Models：用 PF-OPSD 训练可控 concrete reasoning

World Models Meet Language Models

→ HF Papers / arXiv

[ CONTINUALLEARNING · MEMORY · RL · LLM · 论文 ] 06.03

Language Models Need Sleep：用 memory consolidation 与 Dreaming 做持续学习

Language Models Need Sleep

→ HF Papers / arXiv

[ GITHUB · TTS · SPEECH · MULTIMODAL · 开源模型 ] 06.03

VoxCPM2：tokenizer-free multilingual TTS 与 voice cloning 开源项目升温

VoxCPM2

→ GitHub

[ GITHUB · CODINGAGENT · WORKFLOW · AGENTS · AWS ] 06.03

AI-DLC workflows：AWS 开源面向 coding agents 的自适应开发生命周期规则

AI-DLC Workflows

→ GitHub

[ HN · GITHUB · AGENT · STATEMACHINE · 可靠性 ] 06.03

Statewright：用可视化状态机约束 AI agent 行为

Statewright

→ HN / GitHub

◉ 2026.05 ◉

[ XAI · CODINGAGENT · FRONTIERMODEL · API · MCP ] 05.31

xAI Grok Build 0.1 进入 API 公测，定位高速 agentic coding 模型

Grok Build 0.1 on API

→ Frontier Release / Research Blog / AI News

[ OPENAI · CODEX · COMPUTERUSE · CODINGAGENT · WINDOWS ] 05.31

Codex 在 Windows 补齐 Computer Use，OpenAI 同步发布内部使用模式

Codex Computer Use on Windows and How OpenAI uses Codex

→ Frontier Release / Research Blog / AI News

[ CLAUDECODE · CODINGAGENT · TELEMETRY · PLUGIN · AGENTGOVERNANCE ] 05.31

Claude Code v2.1.157：plugin auto-load、agent routing 与 OTEL tool telemetry 下沉到客户端

Claude Code v2.1.157

→ Frontier Release / GitHub / AI News

[ LLM · EDGEAI · TOOLUSE · MINICPM · 开源模型 ] 05.31

MiniCPM5-1B：1B on-device 模型内置 131K context、tool calling 与 RL+OPD

MiniCPM5-1B

→ HF Models / GitHub

[ MULTIMODAL · VLM · OPENWEIGHTS · STEPFUN · HFMODELS ] 05.31

Step-3.7-Flash：201B 多模态开放模型进入 HF 热榜

Step-3.7-Flash

→ HF Models / Research Blog

[ DOCUMENTAI · OCR · VLM · PADDLEOCR · 多模态 ] 05.31

PaddleOCR-VL-1.6：文档智能模型继续向 layout / table / formula / chart 解析统一

PaddleOCR-VL-1.6

→ HF Models

[ AGENT · SKILL · 优化 · MICROSOFTRESEARCH · 论文 ] 05.31

SkillOpt：把自然语言 agent skill 当作可训练外部参数

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

→ HF Papers / arXiv / Research Blog

[ ROBOTICS · VLA · EMBODIEDAI · 开源模型 · 论文 ] 05.31

MolmoAct2：开放 VLA 模型把 embodied reasoning、action tokenizer 与低延迟推理打包发布

MolmoAct2: Action Reasoning Models for Real-world Deployment

→ HF Papers / arXiv / Reddit

[ DOCUMENTAI · VQA · GROUNDING · 评测 · 论文 ] 05.31

CiteVQA：Doc-VQA 开始评估“答案正确且证据区域正确”

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

→ HF Papers / arXiv

[ MULTIMODALAGENT · SEARCH · RL · GRPO · 论文 ] 05.31

OpenSearch-VL：开源多模态 deep search agent 的数据、工具和 RL recipe

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

→ HF Papers / arXiv

[ AGENTMEMORY · PRIVACY · EDGEAI · PERSONALAI · 论文 ] 05.31

MemPrivacy：edge-cloud agent 记忆的可逆隐私占位机制

MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

→ HF Papers / arXiv / Reddit

[ DIFFUSION · SAMPLING · IMAGEGENERATION · 推理优化 · 论文 ] 05.31

Colored Noise Diffusion Sampling：无需重训的 frequency-aware diffusion sampler

Colored Noise Diffusion Sampling

→ arXiv / Reddit

[ 数学 · BENCHMARK · REASONING · LLM评测 · 论文 ] 05.31

Soohak：439 个数学家原创研究级问题评测 frontier reasoning

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

→ HF Papers / arXiv

[ LANGUAGEMODEL · DIFFUSION · 架构 · 非自回归 · 论文 ] 05.31

Cola DLM：用连续 latent diffusion 重新定义语言生成路径

Continuous Latent Diffusion Language Model

→ HF Papers / arXiv

[ INFERENCE · SERVING · NVIDIA · DYNAMO · 仿真 ] 05.31

NVIDIA DynoSim：用 Dynamo twin 在本地快速扫 LLM serving Pareto frontier

DynoSim: Simulating the Pareto Frontier

→ Research Blog

[ AGENT · WEBAGENT · FIRECRAWL · MONITORING · API ] 05.31

Firecrawl `/monitor`：把网页变化检测变成 agent 可订阅事件

Introducing /monitor: Notify AI agents when the web changes

→ Product Hunt / Research Blog

[ GITHUB · AGENTFRAMEWORK · MCP · OBSERVABILITY · 开源工具 ] 05.31

LightAgent v0.7.0：轻量 agent framework 加入 trace observability 与结构化运行事件

LightAgent

→ GitHub

[ GITHUB · AGENTRUNTIME · DISTRIBUTEDAGENTS · GOOGLE · 开源工具 ] 05.31

Google AX：开源 distributed agent runtime，路线图指向 subagent suspend/resume 与 approvals

google/ax

→ GitHub

[ AGENT · HARNESS · SURVEY · DEVOPS · 论文 ] 05.31

Code as Agent Harness：把 code 视为 agent 推理、行动、记忆和验证的统一 substrate

Code as Agent Harness

→ HF Papers / arXiv / Reddit

[ MISTRAL · AGENT · ENTERPRISEAI · SEARCH · 平台 ] 05.30

Mistral AI Now Summit：企业 agent stack 从模型走向 Vibe / Industrial Engineering / Search Toolkit

AI Now Summit 2026

→ Frontier Release / Research Blog / AI News

[ GOOGLERESEARCH · GEMINI · AI4SCIENCE · MEDGEMMA · EDGEAI ] 05.30

Google Research I/O 2026 recap：Gemini for Science、PAT、MedGemma 与 Coralboard 进入研究/医疗/边缘开发者路径

A New Era of Innovation: Google Research at I/O 2026

→ Frontier Release / Research Blog

[ LLM · EDGEAI · TOOLUSE · HYBRIDMODEL · HFMODELS ] 05.30

LFM2.5-8B-A1B：LiquidAI 发布 1.5B active 的 on-device reasoning / tool-use 模型

LFM2.5-8B-A1B

→ HF Models / Frontier Release

[ VLLM · SPECULATIVEDECODING · 推理优化 · DFLASH · 开源工具 ] 05.30

vLLM Speculators v0.5.0：DFlash block diffusion 与 online training 接入 speculative decoding

Speculators v0.5.0: DFlash Support and Online Training

→ Research Blog / GitHub

[ VLLM · ROUTING · MULTIMODAL · SERVING · 安全 ] 05.30

vLLM Semantic Router：把视觉证据接入可审计 routing 控制面

From Text to Multimodal Routing: Hardening Vision Signals in vLLM Semantic Router

→ Research Blog / GitHub

[ 推理优化 · LLMSERVING · GPU · LATENCY · HN ] 05.30

Kog Inference Engine：标准数据中心 GPU 上 3,000 tokens/s per request 的技术预览

Real-time LLM Inference on Standard Datacenter GPUs

→ HN / Research Blog

[ AGENT · 安全 · ALIGNMENT · GUARDRAIL · 论文 ] 05.30

AgentDoG 1.5：用轻量 guardrail 对齐 open-world agent 安全

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

→ HF Papers / arXiv

[ ROBOTICS · VLA · QWEN · EMBODIEDAI · 论文 ] 05.30

Qwen-VLA：把 manipulation、navigation、trajectory prediction 统一到一个 vision-language-action 模型

Qwen-VLA

→ HF Papers / arXiv

[ VLM · GROUNDING · NVIDIA · GUIAGENT · ROBOTICS ] 05.30

LocateAnything-3B：NVIDIA 用 Parallel Box Decoding 做通用视觉 grounding

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

→ HF Models / Research Blog

[ VLM · 推理优化 · TOKENPRUNING · 多模态 · 论文 ] 05.30

OccamToken：用 register-anchored relative evidence testing 做训练-free VLM token pruning

OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning

→ arXiv

[ VIDEOGENERATION · KVCACHE · MLA · DIFFUSION · 论文 ] 05.30

VideoMLA：把 MLA 引入 minute-scale autoregressive video diffusion 的 KV cache

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

→ arXiv

[ LLM · REASONING · LATENTREASONING · TESTTIMECOMPUTE · 论文 ] 05.30

RiM：用 fixed memory blocks 替代自回归思维 token 做 latent reasoning

Unlocking the Working Memory of Large Language Models for Latent Reasoning

→ arXiv

[ ROBOTICS · REPRESENTATIONLEARNING · VLA · EMBODIEDAI · 论文 ] 05.30

DynaFLIP：把 motion understanding 前移到机器人视觉表征预训练

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

→ arXiv

[ LLM · DATAMIXTURE · MODELAUDIT · 训练数据 · 论文 ] 05.30

LLMSurgeon：仅凭模型生成文本估计 LLM 预训练数据混合比例

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

→ arXiv

[ HARDWAREAI · EDA · LLM · CODEREPRESENTATION · 论文 ] 05.30

SchGen：从自然语言生成可编辑 PCB schematic 的 LLM 表征路线

SchGen: PCB Schematic Generation with Semantic-Grounded Code Representations

→ arXiv

[ SCIENTIFICSOFTWARE · CODINGAGENT · CLAUDECODE · AI4SCIENCE · 工程实践 ] 05.30

科学软件 case study：物理学家监督 Claude Code 12 天构建 JAX 微扰论模块

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

→ arXiv

[ GITHUB · CODINGAGENT · CODEQUALITY · 静态分析 · HN ] 05.30

AISlop：无 LLM runtime 的 AI-generated code smell scanner 在 HN 高热

Show HN: AISlop, a CLI for catching AI generated code smells

→ GitHub / HN

[ CLAUDE · ANTHROPIC · FRONTIERMODEL · AGENT · CODINGAGENT · API ] 05.29

Claude Opus 4.8：旗舰模型升级与 Claude Code / Cowork 控制面同步发布

Claude Opus 4.8

→ Frontier Release / Anthropic / Axios / Reuters

[ GITHUB · CODINGAGENT · AGENTICENGINEERING · MCP · 开源工具 ] 05.29

Kilo Code：开源 agentic engineering platform 进入高热度区间

Kilo Code

→ GitHub / Product Hunt

[ GITHUB · DESKTOPAI · PERSONALAI · MEMORY · 开源工具 ] 05.29

OpenHuman：本地记忆与 managed integrations 结合的个人 AI desktop harness

OpenHuman

→ GitHub / Product Hunt

[ WORLDMODEL · 多智能体 · VIDEOGENERATION · NVIDIA · 论文 ] 05.29

Gamma-World：面向多人交互视频生成的多智能体世界模型

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

→ HF Papers / arXiv

[ AGENT · MULTIMODAL · RL · GRPO · TOOLUSE · 论文 ] 05.29

AXPO：修补 multimodal agentic reasoning 的 thinking-acting gap

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

→ HF Papers / arXiv

[ LLM · SEARCH · SELFIMPROVEMENT · 后训练 · 推理 ] 05.29

Bidirectional Evolutionary Search：让 LLM 搜索同时向前演化、向后拆目标

Self-Improving Language Models with Bidirectional Evolutionary Search

→ HF Papers / arXiv

[ LLM · REASONING · RL · SELFCORRECTION · 论文 ] 05.29

DenoiseRL：从错误 reasoning traces 中训练恢复能力

DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

→ HF Papers / arXiv

[ 数学 · 数据集 · AGENTPIPELINE · FINETUNING · 论文 ] 05.29

ResearchMath-14K：用 agent pipeline 扩展研究级数学数据

ResearchMath-14K: Scaling Research-Level Mathematics via Agents

→ HF Papers / arXiv / HF Datasets

[ 推荐系统 · RL · POLICYGRADIENT · AGENTICRECOMMENDATION · 论文 ] 05.29

ProRL：为主动推荐系统修正 policy gradient 偏差

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

→ HF Papers / arXiv / GitHub

[ AGENTSECURITY · CONTAINMENT · CLAUDECODE · ENGINEERING · POSTMORTEM ] 05.29

Anthropic 公开 Claude agent containment 经验

How we contain Claude across products

→ Anthropic Engineering / Reddit

[ CYBERSECURITY · AI4SECURITY · CLAUDEMYTHOS · 漏洞发现 · 生产部署 ] 05.29

Project Glasswing 初报：AI 漏洞发现进入修补瓶颈阶段

Project Glasswing: An initial update

→ Anthropic Research / AI News

[ PYTORCH · TRITON · BLACKWELL · ATTENTIONKERNEL · 推理优化 · 训练优化 ] 05.29

TLX Block Attention：为 Blackwell 固定块稀疏 attention 写专用 Triton kernel

TLX Block Attention: A Warp-Specialized Blackwell Kernel for Fixed-Block Sparse Self-Attention

→ PyTorch Blog / GitHub

[ AGENT · SMALLMODEL · COMPUTERUSE · MICROSOFTRESEARCH · 端侧AI ] 05.29

MagenticLite + Fara1.5：小模型 agent 栈走向端侧可运行

MagenticLite, MagenticBrain, Fara1.5: An agentic experience optimized for small models

→ Microsoft Research

[ AGENTRUNTIME · KUBERNETES · TERRAFORM · ZEROTRUST · 开源平台 ] 05.29

Agyn：把 agent 定义、serverless runtime 与 zero-trust access 合成平台

Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access

→ arXiv / WebSearch

[ AI4HEALTH · DIGITALTWIN · FDA · WEARABLES · 医疗AI ] 05.29

Coredio CPSE：用 physics digital twin + ML 做居家心衰血流动力学评估

FDA Grants Coredio Breakthrough Designation for AI Platform Bringing Advanced Heart Failure Assessment Beyond the Hospital

→ VentureBeat / Business Wire

[ 数学 · 推理 · OPENAI · AI4SCIENCE · FRONTIERRESEARCH ] 05.24

OpenAI 通用 reasoning model 证伪 Erdős 单位距离猜想

An OpenAI Model Disproves a Central Conjecture in Discrete Geometry

→ OpenAI / Gigazine / StartupHub / Lifeboat

[ 数学 · 形式化证明 · LEAN · DEEPMIND · AI4SCIENCE · 论文 ] 05.24

AI-Driven Formal Proof Search：LLM + Lean 在 353 个 Erdős 问题中解 9 个

Advancing Mathematics Research with AI-Driven Formal Proof Search

→ HF Papers / arXiv

[ LLM · RL · RLVR · DAPO · 后训练 · 论文 ] 05.24

DelTA：用 discriminative token credit 给 RLVR 提供精确的局部信号

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

→ HF Papers / arXiv

[ LINEARATTENTION · 架构 · NVIDIA · 长上下文 · 论文 ] 05.24

Gated DeltaNet-2 (NVIDIA)：把线性 attention 的擦写两步拆成独立通道 gate

Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

→ HF Papers / arXiv

[ LLM · ATTENTION · 长上下文 · 推理优化 · ALIBABA · 论文 ] 05.24

Full Attention Strikes Back / RTPurbo：用百训练步把 full-attention 模型转 sparse

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

→ HF Papers / arXiv

[ 开源模型 · NVIDIA · OMNI · 多模态 · MAMBA · MOE ] 05.24

NVIDIA Nemotron 3 Nano Omni：30B-A3B Mamba+Transformer omni-modal 开放权重

NVIDIA Nemotron 3 Nano Omni

→ NVIDIA Developer Blog / HF Models

[ 3D生成 · WORLDMODEL · EMBODIEDAI · 物理仿真 ] 05.24

PhysX-Omni：把 3D 生成结果直接调度到物理仿真

PhysX-Omni: Unified Simulation-Ready Physical 3D Generation

→ HF Papers / arXiv

[ AGENT · SANDBOX · OS · RL · 基础设施 · 论文 ] 05.24

DeltaBox：毫秒级 sandbox checkpoint / rollback for stateful agents

DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

→ arXiv / HF Papers

[ 推理 · VLLM · KVCACHE · 量化 · RL · 开源 ] 05.24

vLLM 5 月技术栈：PegaFlow / VeRL-Omni / TurboQuant / Artificial Analysis 第一

vLLM May 2026 Stack Updates

→ vLLM Blog

[ CODINGAGENT · CURSOR · PRREVIEW · 定价 · AGENT ] 05.24

Cursor Bugbot Effort Levels：把 PR review agent 转 usage-based 并暴露 quality/cost 旋钮

Updates to Bugbot for Teams and Individuals

→ Cursor Blog / Cursor Changelog / Start Debugging

[ ANTHROPIC · PLUGIN · CLAUDECODE · MCP · 生态 ] 05.24

Anthropic 把 Claude Plugins 目录标准化为官方 plugin marketplace

claude-plugins-official

→ GitHub / GitHub Trending Python

[ 健康AI · 基础模型 · 多模态 · 时序 · AI4SCIENCE ] 05.24

可穿戴健康基础模型：1 万亿分钟 sensor data + 500 万参与者

Towards a General Intelligence and Interface for Wearable Health Data

→ arXiv

[ AGENT · SELFEVOLUTION · SOURCECODE · AI4SE ] 05.24

MOSS：让 agent 在执行中改写自己的源代码

MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

→ arXiv / HF Papers

[ DEEPSEEK · 定价 · API · 开源模型 ] 05.24

🔄 进展更新：DeepSeek V4 Pro 永久维持降价定价

DeepSeek Makes the V4 Pro Price Discount Permanent

→ DeepSeek API Docs / Hacker News

[ 推理 · LATENTREASONING · TESTTIMESCALING · 论文 ] 05.22

Equilibrium Reasoners：以 attractor learning 重塑 test-time scaling

Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

→ arXiv

[ LLM · RL · RLVR · 训练效率 · 推理 ] 05.22

用 15% RLVR 步数复现完整训练性能：rank-1 trajectory 的外推

You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

→ HF Papers / arXiv

[ 时序预测 · 基础模型 · SCALING · DATADOG · 开源模型 ] 05.22

Toto 2.0：时序预测进入 scaling era 的开源基础模型

Toto 2.0: Time Series Forecasting Enters the Scaling Era

→ HF Papers / arXiv

[ 可解释性 · ANTHROPIC · 对齐 · 激活分析 · 研究 ] 05.22

Natural Language Autoencoders：把激活直接翻译成文字解释

Natural Language Autoencoders

→ Anthropic Research

[ LLM · 推理 · 开源模型 · 架构 · 循环 ] 05.22

HRM-Text-1B：开源的层级双时标推理模型

HRM-Text-1B

→ HuggingFace Models / sapientinc

[ 开源模型 · MOE · 量化 · NVFP4 · COHERE · 推理优化 ] 05.22

Cohere Command A+ W4A4：把 NVFP4 推进生产 MoE 服务

command-a-plus-05-2026-w4a4

→ HuggingFace Models / CohereLabs

[ LLM · SELFPLAY · LORA · RL · 推理 · 种群训练 ] 05.22

PopuLoRA：共同演化的 LLM 种群做 reasoning self-play

PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play

→ vMax / Hacker News

[ AGENT · WEBAGENT · 编译 · 并行 · ICML2026 · 推理优化 ] 05.22

Agent JIT Compilation：把 web agent 任务编译成可并行代码

Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling

→ arXiv (ICML 2026)

[ LLM · PYTORCH · 后训练 · 开源工具 · META ] 05.22

torchtune：Meta 发布 PyTorch 原生 post-training 库

torchtune: PyTorch native post-training library

→ arXiv

[ NVIDIA · 量化 · NVFP4 · BLACKWELL · 推理 · 训练 ] 05.22

NVFP4：3x FP8 吞吐与 1.9x 训练加速进入主线

3 Ways NVFP4 Accelerates AI Training and Inference

→ NVIDIA Developer Blog

[ AGENT · 形式化验证 · 编码 · CODING · 软件工程 ] 05.22

Structural Backpressure：让 agent 代码无法绕过安全约束

Formal Verification Gates for AI Coding Loops

→ Hacker News / reubenbrooks.dev

[ GOOGLE · GEMINI · AGENT · FRONTIER模型 · ANTIGRAVITY · 生态 ] 05.22

Gemini 3.5 Flash + Antigravity + Spark：Google I/O 2026 的 agent-first 平台

With Gemini 3.5 Flash, Google bets its next AI wave on agents

→ Google Blog / TechCrunch / VentureBeat / HN

[ ALIBABA · QWEN · AGENT · FRONTIER模型 · CODING · TERMINAL-BENCH ] 05.22

Qwen3.7-Max：35 小时自主 kernel 优化 + 69.7 Terminal-Bench 2.0

Qwen3.7-Max: The Agent Frontier

→ Qwen Blog / Hacker News / Digg

[ ANTHROPIC · 对齐 · AGENT · 伦理 · 研究 ] 05.22

Anthropic Widening the Conversation：mid-task 道德提醒工具的实测对齐效果

Widening the conversation on frontier AI

→ Anthropic News

[ MISTRAL · PHYSICSAI · 工业仿真 · 收购 · 数字孪生 ] 05.22

Mistral 收购 Emmi AI：把 Physics AI 集成进 frontier lab

Mistral AI acquires Emmi AI

→ Emmi AI / Mistral / TechCrunch

[ AGENT · SKILLS · 评估 · SWEBENCH · TERMINALBENCH · 后训练 ] 05.20

SkillsVote：Agent Skills 的收集、推荐与演化治理框架

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

→ HF Papers / arXiv

[ 视频生成 · DIFFUSION · NVFP4 · NVIDIA · 推理 · 训练 ] 05.20

LongLive-2.0：NVFP4 长视频生成训练与推理基础设施

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

→ HF Papers / arXiv

[ 多模态 · MOE · 视频生成 · 图像编辑 · BYTEDANCE · 开源模型 ] 05.20

Lance：用多任务协同统一图像/视频理解、生成与编辑

Lance: Unified Multimodal Modeling by Multi-Task Synergy

→ HF Papers / arXiv / HF Models

[ LLM · ATTENTION · 长上下文 · TRITON · 推理优化 ] 05.20

DashAttention：可微自适应稀疏层级 Attention

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

→ arXiv

[ LLM · RLHF · 偏好优化 · 后训练 · REWARDMODEL ] 05.20

GPRL：面向开放式偏好的多维在线 RL

General Preference Reinforcement Learning

→ arXiv

[ MOE · 推理优化 · SELFDISTILLATION · QWEN · GLM ] 05.20

ZEDA：把已后训练 MoE 转成可跳过半数 experts 的动态 MoE

Post-Trained MoE Can Skip Half Experts via Self-Distillation

→ HF Papers / arXiv

[ AGENT · TOOLUSE · RL · MCP · 环境合成 · QWEN ] 05.20

EnvFactory：自动合成可执行工具环境来训练 Tool-Use Agents

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

→ arXiv

[ AGENT · HEALTHCARE · MCP · BENCHMARK · WORKFLOW · 企业自动化 ] 05.20

CHI-Bench：医疗长流程 Agent 自动化基准

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

→ HF Papers / arXiv

[ CODINGAGENT · RL · 开发工具 · CURSOR · 代码生成 ] 05.20

Cursor Composer 2.5：面向 coding agent 的 targeted RL 与更长 horizon

Cursor Introduces Composer 2.5

→ HN / Product Blog

[ PYTORCH · EXECUTORCH · MLX · 端侧AI · 训练框架 · 部署 ] 05.20

PyTorch 2.12 与 ExecuTorch MLX：框架侧继续补端侧与训练性能

PyTorch 2.12 / ExecuTorch Apple MLX Delegate

→ PyTorch Blog

[ NVIDIA · GPU · AIINFRASTRUCTURE · AGENTICAI · 推理集群 ] 05.20

NVIDIA Vera CPU 首批系统交付：Agentic AI Factory 进入生产验证

Vera Arrives: NVIDIA's First CPU Built for Agents Lands at Top AI Labs

→ NVIDIA Blog

[ ANTHROPIC · API · SDK · 开发者平台 · 生态 ] 05.20

Anthropic 收购 Stainless：API SDK 生成进入模型平台内层

Anthropic acquires Stainless

→ Anthropic News

[ VLM · 端侧AI · 多模态 · 开源模型 · MINICPM ] 05.20

MiniCPM-V 4.6：面向端侧的轻量多模态模型继续升温

MiniCPM-V-4.6

→ HF Models

[ WORLDMODEL · EMBODIEDAI · 3D · 物理模拟 · 多模态 ] 05.18

PhysBrain：面向 3D Embodied AI 的物理感知世界模型

PhysBrain: A Physics-Aware World Model for 3D Embodied AI

→ HF Papers / arXiv

[ VLM · BENCHMARK · 多模态推理 · 评测 ] 05.18

MMSkills：多模态多技能推理基准

MMSkills: Benchmarking Reasoning in Multimodal Multiple Skills

→ HF Papers / arXiv

[ VQA · CITATION · 文档智能 · 可信AI · 评测 ] 05.18

CiteVQA：要求 VQA 给出人工验证引用框

CiteVQA: Visual Question Answering with Human-Verified Citations

→ HF Papers / arXiv

[ 视频生成 · DIFFUSION · GRPO · 对齐 · 训练效率 ] 05.18

Flash-GRPO：用 one-step policy optimization 对齐视频扩散

Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

→ arXiv / HF Papers

[ LLM · RL · GRPO · FLASHATTENTION · 训练基础设施 ] 05.18

DualKV：为 GRPO/DAPO 大 rollout 复用 shared prompt 的 Flash Attention

DualKV: Shared-Prompt Flash Attention for Efficient RL Training with Large Rollouts and Long Contexts

→ arXiv

[ LLM · 科学AI · FORECASTING · TREESEARCH · 应用范式 ] 05.18

LLM-guided tree search 用于多病原体前瞻预测

Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search

→ arXiv

[ 图像生成 · DIFFUSION · UNIFIEDTRANSFORMER · 开源 · 多模态 ] 05.18

HiDream-O1-Image：像素空间统一图像生成模型

HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer

→ HF Models / arXiv / Reddit

[ GEMMA · 推理 · SPECULATIVEDECODING · MTP · 开源模型 ] 05.18

Google 为 Gemma 4 发布 MTP drafters，推理最高 3x 加速

Accelerating Gemma 4: faster inference with multi-token prediction drafters

→ Google Blog / HN

[ AGENT · 安全 · PROMPTINJECTION · RCE · SEMANTICKERNEL ] 05.18

Semantic Kernel 漏洞显示 prompt injection 可升级为 host-level RCE

When prompts become shells: RCE vulnerabilities in AI agent frameworks

→ Microsoft Security Blog

[ AGENT · CLI · 工具调用 · 开源 ] 05.18

CLI-Anything：把任意软件包装成 agent-native CLI

CLI-Anything: Making ALL Software Agent-Native

→ GitHub Trending

[ RAG · 本地AI · 向量检索 · 隐私 · 开源 ] 05.18

LEANN：用 97% storage savings 做个人设备上的 RAG on Everything

LEANN: RAG on Everything

→ GitHub Trending

[ VLM · 端侧AI · OPENBMB · 多模态 · 开源模型 ] 05.18

MiniCPM-V-4.6：1.3B 级端侧多模态模型继续上榜

MiniCPM-V 4.6

→ HF Models / AI News / Reddit

[ LLM · 推理 · 训练 · RL · 数学 · 科学推理 ] 05.16

30B-A3B 模型达到 Olympiad 金牌级推理的统一 recipe

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

→ HF Papers / arXiv

[ 视频生成 · DIFFUSION · 蒸馏 · 实时交互 · 世界模型 ] 05.16

Causal Forcing++：1-2 步 frame-wise AR diffusion 蒸馏实时视频

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

→ HF Papers / arXiv / GitHub / Reddit

[ AGENT · RL · 后训练 · GRPO · SELFDISTILLATION ] 05.16

SDAR：给多轮 agent RL 加 gated token-level self-distillation

Self-Distilled Agentic Reinforcement Learning

→ HF Papers / arXiv

[ OPENAI · 语音 · REALTIMEAPI · AGENT · 工具调用 · 多语言 ] 05.16

OpenAI 发布 GPT-Realtime-2、Realtime-Translate 与 Realtime-Whisper

Advancing voice intelligence with new models in the API

→ OpenAI / VentureBeat / TechCrunch

[ ANTHROPIC · AGENT · MEMORY · 评估 · 多AGENT · 平台 ] 05.16

Claude Managed Agents 加入 dreaming、outcomes 与 multiagent orchestration

New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration

→ Claude / Anthropic ecosystem / VentureBeat / Ars Technica / Reddit

[ GOOGLEDEEPMIND · ALPHAEVOLVE · 科学发现 · 代码AGENT · 优化 ] 05.16

AlphaEvolve 从算法发现走向 Google 基础设施与科学优化

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

→ Google DeepMind

[ MICROSOFT · CYBERSECURITY · AGENT · 漏洞挖掘 · 多模型 · BENCHMARK ] 05.16

Microsoft MDASH：100+ specialized agents 的漏洞发现 harness

Defense at AI speed: Microsoft’s new multi-model agentic security system tops leading industry benchmark

→ Microsoft Security Blog

[ GOOGLE · GEMINIAPI · RAG · EMBEDDING · 多模态 · 引用 ] 05.16

Gemini API File Search 加入 multimodal RAG、metadata 与 page citations

Gemini API File Search is now multimodal

→ Google Blog

[ QWEN · LLAMA.CPP · MTP · SPECULATIVEDECODING · 本地推理 · GGUF ] 05.16

Qwen3.6 MTP 在 llama.cpp 社区落地，本地 speculative decoding 加速进入主线

Qwen3.6-27B MTP via llama.cpp PR #22673

→ Reddit / HuggingFace Models / 社区技术博客

[ CODINGAGENT · OPENSOURCE · VSCODE · PRODUCTHUNT · 开发者工具 ] 05.16

Kilo Code v7 for VS Code：Product Hunt 本月开源 coding agent 信号

Kilo Code v7 for VS Code

→ Product Hunt / AI Native Foundation

[ LLM · LORA · 训练 · 推理 · 基础设施 · MOE ] 05.15

MinT：面向百万 LLM 策略的训练与服务基础设施

MinT: Managed Infrastructure for Training and Serving Millions of LLMs

→ HF Papers / arXiv

[ 视频生成 · DIFFUSION · 蒸馏 · NVIDIA · 论文 ] 05.15

AnyFlow：任意步视频扩散的 on-policy flow map distillation

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

→ HF Papers / arXiv

[ VLM · 长上下文 · 训练 · QWEN · 论文 ] 05.15

MMProLong：5B token 把 Qwen2.5-VL-7B 扩到 128K 并外推 512K

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

→ HF Papers / arXiv

[ QWEN · VAE · 图像生成 · DIFFUSION · 文档解析 ] 05.15

Qwen-Image-VAE-2.0：高压缩图像 VAE 同时优化重建与 diffusability

Qwen-Image-VAE-2.0 Technical Report

→ HF Papers / arXiv

[ ICL · COT · 长上下文 · 推理 · PROMPT ] 05.15

Many-Shot CoT-ICL：长上下文 prompt 更像测试时课程学习

Many-Shot CoT-ICL: Making In-Context Learning Truly Learn

→ HF Papers / arXiv

[ 安全 · 微调 · 数据治理 · LLM · 论文 ] 05.15

Negation Neglect：模型会把“明确标假”的训练文本学成真

Negation Neglect: When models fail to learn negations in training

→ arXiv

[ AGENT · 安全 · 评测 · 长上下文 · 论文 ] 05.15

History Anchors：历史轨迹会把 agent 决策推向不安全延续

History Anchors: How Prior Behavior Steers LLM Decisions Toward Unsafe Actions

→ arXiv

[ AGENT · LORA · 推理优化 · 多智能体 · 论文 ] 05.15

TFlow：用临时 LoRA 权重扰动替代多 agent 文本通信

Good Agentic Friends Do Not Just Give Verbal Advice: They Can Update Your Weights

→ arXiv

[ NVIDIA · DYNAMO · AGENT · 推理 · 工具调用 ] 05.15

NVIDIA Dynamo 支持 streaming tokens 与 multi-turn tool harness

Streaming Tokens and Tools: Multi-Turn Agentic Harness Support in NVIDIA Dynamo

→ Research Blog

[ AGENT · 数据库 · POSTGRES · 沙箱 · 工程实践 ] 05.15

Ardent：为 coding agents 提供秒级 Postgres 生产相似沙箱

Launch HN: Ardent – Postgres sandboxes in seconds with zero migration

→ HN

[ AGENT · COBOL · MAINFRAME · 企业现代化 · 开发工具 ] 05.15

Hopper：保留 TN3270/ISPF fidelity 的 mainframe agentic IDE

Show HN: Agentic interface for mainframes and COBOL

→ HN

[ GOOGLEDEEPMIND · 交互设计 · AIUI · AGENT · 研究 ] 05.15

Google DeepMind 重构 AI 时代的 mouse pointer

Reimagining the mouse pointer for the AI era

→ Research Blog / HN

[ GOOGLEDEEPMIND · AGENT · 科学发现 · 代码生成 · 优化 ] 05.15

Google AlphaEvolve：Gemini-powered coding agent 的跨领域优化案例

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

→ Research Blog

[ ANTHROPIC · MOZILLA · CYBER · CLAUDEMYTHOS · FIREFOX · POSTMORTEM · HARNESS ] 05.09

Mozilla Hacks 公开 Mythos × Firefox harness：271 bug + 三大 CVE rollup + "AI 与顶级人类研究员同档"

Behind the Scenes Hardening Firefox with Claude Mythos Preview

→ Mozilla Hacks / Mozilla Blog / SecurityWeek / Help Net Security / Simon Willison / HN (356 pts · 159 评论)

[ 论文 · TIGER-LAB · RAG · AGENTIC-SEARCH · RETRIEVAL · VECTORDB ] 05.09

TIGER-Lab DCI：agent 用 grep / bash 直接搜原始 corpus，13 基准碾压向量数据库

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

→ arXiv (HF Papers 62↑ 5/8 当日榜首) / TIGER-Lab

[ MODULAR · MOJO · 编译器 · GPU · KERNEL · ENGINEERING ] 05.09

Modular 26.3 + Mojo 1.0 Beta：TileTensor compile-time 张量布局 + MAX video gen

Modular 26.3: Mojo 1.0 Beta, MAX Video Gen, and More

→ Modular Blog / HN (357 pts · 224 评论) / Modular Forum

[ OPENAI · GPT5.5 · PRICING · OPENROUTER · COHORT分析 · FRONTIER成本 ] 05.09

OpenRouter GPT-5.5 真实成本分析：cohort 实测 49-92% 涨幅 + 长 prompt 受益最大

GPT-5.5 Price Increase: What It Actually Costs

→ OpenRouter / The Register / HN (206 pts · 65 评论)

[ 论文 · SKILL1 · COLADLM · RL · 扩散语言模型 · LATENT ] 05.09

TIGER-Lab DCI 同周双联：HuggingFace 5/8 Papers 第二位 Skill1 + 第三位 Cola DLM

Skill1 + Continuous Latent Diffusion Language Model

→ arXiv (HF Papers Skill1 60↑ / Cola DLM 52↑)

[ 论文 · TENCENT · 长上下文 · COGNITIVE-SCIENCE · RAG · AGENT ] 05.09

Tencent MiA-Signature：cognitive science 启发的全局激活近似——长上下文 LLM 推理工程化新轴

MiA-Signature: Approximating Global Activation for Long-Context Understanding

→ arXiv (HF Papers 46↑) / 中科院 + 腾讯微信 AI + 腾讯混元

[ 开源 · HIDREAM · 图像生成 · UNIFIEDTRANSFORMER · VAE-LESS ] 05.09

HiDream-O1-Image 5/8 开源：8B 像素级 Unified Transformer，无 VAE / 无独立 text encoder

HiDream-O1-Image: Pixel-level Unified Transformer for Image Generation

→ HuggingFace / HiDream.ai

[ SHOWHN · AGENT · GIT · 版本控制 · AUDIT · CLAUDECODE ] 05.09

Show HN re_gent：Git for AI Agents——AI 改动的 audit / blame / rewind

Show HN: Git for AI Agents

→ HN (110 pts · 61 评论) / GitHub

[ 论文 · 机器人 · VLA · WAM · ASTRIBOT ] 05.09

When to Trust Imagination：自适应 World Action Model 执行——把 robotic manipulation 的"何时该停"工程化

When to Trust Imagination: Adaptive Action Execution for World Action Models

→ arXiv (HF Papers 36↑) / SUSTech + 香港大学 + Astribot

[ 开源 · HKUDS · 视频生成 · AGENT · 多AGENT · PIPELINE ] 05.09

HKUDS ViMax：agentic 视频生成全 pipeline——Director / Screenwriter / Producer / Generator 多 agent 编排

ViMax: Agentic Video Creation as Director / Screenwriter / Producer / Generator

→ GitHub (Trending Python +133/day) / HKUDS（港大数据智能实验室）

[ ANTHROPIC · SPACEX · INFRA · 算力 · CLAUDE · CLAUDECODE · 轨道算力 ] 05.07

Anthropic × SpaceX Colossus 1 + Claude Code 限额翻倍：算力 portfolio 完成多轨闭合

Higher Usage Limits for Claude and a Compute Deal with SpaceX

→ Anthropic / Bloomberg / CNBC / Engadget / PCWorld / HN (469 pts · 430 评论)

[ CLOUDFLARE · STRIPE · AGENT · PROTOCOL · INFRA · AGENTSWEEK ] 05.07

Cloudflare Agents Week 2026 + Stripe Projects：agent 作为 first-class cloud customer 的协议层落地

Agents Can Now Create Cloudflare Accounts, Buy Domains, and Deploy

→ Cloudflare / Stripe / HN (635 pts · 361 评论) / InfoWorld / DEV

[ ANTHROPIC · CYBER · CLAUDE · OPUS4.6 · EXPLOIT · WEBASSEMBLY · POSTMORTEM ] 05.07

Anthropic Red Team 公开 Claude Opus 4.6 端到端 reverse-engineer + exploit Firefox CVE-2026-2796

Reverse Engineering Claude's CVE-2026-2796 Exploit

→ Anthropic Red Team / r/MachineLearning / HN

[ 论文 · 视频生成 · DISTILLATION · REWARD · DMD · FRAMEX · USTC ] 05.07

Stream-R1：Reliability-Perplexity 双轴 reward distillation——4 步 distilled student 超越多步 teacher

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

→ arXiv (HF Papers 102↑ 当日榜首) / FrameX-AI + 中科大 + 独立研究者

[ 论文 · VLA · 机器人 · RLWRLD · KAIST · MSAT ] 05.07

RLDX-1：VLA 三件套（motion + memory + physics 流）—— ALLEX 人形 86.8% 真实任务

RLDX-1 Technical Report

→ arXiv (HF Papers 72↑) / RLWRLD + KAIST

[ 论文 · 自动驾驶 · WORLDMODEL · BEV · LLM · 多模态 ] 05.07

HERMES++：BEV + LLM 统一 driving world model——理解 + 几何预测同栈

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

→ arXiv (HF Papers 63↑) / H-EmbodVis 团队

[ ANDON-LABS · EMBODIED · 真实商业 · FRONTIER · POSTMORTEM ] 05.07

Andon Labs Stockholm AI 咖啡店 "Mona"——frontier 模型在真实商业代理上的 longitudinal 实证

Our AI Started a Cafe in Stockholm

→ Andon Labs / HN (48 pts · 48 评论)

[ META · MUSESPARK · 闭源 · 多模态 · AAIINDEX · 生态 ] 05.07

Meta Muse Spark：Llama 时代结束、frontier 多模态闭源化

Goodbye, Llama? Meta launches new proprietary AI model Muse Spark

→ VentureBeat / TrendingTopics / r/LocalLLaMA / Meta Superintelligence Labs

[ AGENT · RUNTIME · SANDBOX · LAKEFS · CLOUDFLARE · TILDE · INFRA ] 05.07

Cloudflare Sandboxes GA + Tilde.run：agent 隔离运行时的两条独立工程答卷

Cloudflare Sandboxes GA + Tilde.run Show HN — Transactional Versioned Filesystem

→ Cloudflare / Tilde.run / HN (172 pts · 119 评论)

[ UNSLOTH · NVIDIA · 训练 · 推理 · MOE · PYTORCH · 开源 ] 05.07

Unsloth × NVIDIA：packed metadata + 双缓冲 checkpoint + MoE routing 三条原生 PyTorch 优化让 LLM 训练再快 25%

Making LLM Training Faster with Unsloth and NVIDIA

→ Unsloth / NVIDIA / HN (62 pts)

[ RAG · VECTORLESS · REASONING · 开源 · FINANCEBENCH ] 05.07

PageIndex：Vectorless Reasoning-based RAG，FinanceBench 98.7%

PageIndex: Document Index for Vectorless, Reasoning-based RAG

→ GitHub VectifyAI/PageIndex (29.2k stars +953/day)

[ DFLASH · SPECULATIVE-DECODING · 开源 · CLAUDECODE · SKILL · 知识库 ] 05.07

DFlash + Wiki Builder：speculative decoding 与 Claude Code skill 两条独立 OSS 工程答卷

DFlash Block Diffusion + Wiki Builder Claude Code Plugin

→ GitHub z-lab/dflash (3.3k stars +654/day) / DAIR.AI Academy / HN (Wiki Builder 126 pts)

[ GOOGLE · GEMMA · 推理优化 · SPECULATIVE-DECODING · 开源 · APACHE2.0 ] 05.06

Google Gemma 4 Multi-Token Prediction Drafter：speculative decoding 标配化与 Apache 2.0 全家族

Accelerating Gemma 4: Faster Inference with Multi-Token Prediction

→ blog.google / HN (610 pts · 298 评论)

[ ANTHROPIC · CLAUDE · 金融 · MICROSOFT365 · AGENT · OPUS4.7 ] 05.06

Anthropic Claude Finance Agents + Microsoft 365 add-ins：10 templates × Excel/PPT/Word/Outlook 落地

Agents for Financial Services and Insurance

→ Anthropic / HN (246 pts · 176 评论)

[ 论文 · 多模态 · 后训练 · RL · 蒸馏 · 开源 ] 05.06

PRISM：在 SFT 与 RLVR 之间插入黑盒蒸馏对齐——多模态后训练 recipe 升级

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

→ arXiv (HF Papers 34↑) / HKUST(GZ) + Tsinghua + NTU + RUC + USTC + UCAS

[ 论文 · SJTU · SII · 研究自动化 · AGENT · CROSS-MODEL · 开源 ] 05.06

ARIS：跨模型 adversarial 协作的 ML 研究 agent harness——Plausible Unsupported Success 的工程对策

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

→ arXiv (HF Papers 59↑ · 本日榜首) / SJTU + 上海创新研究院

[ 论文 · 美团 · LONGCAT · 推理 · BON · 开源 ] 05.06

HeavySkill：把 heavy thinking 从外化编排单元内化为模型参数 skill

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

→ arXiv (HF Papers 22↑) / Meituan LongCat

[ 论文 · SEARCH-AGENT · SFT · 开源 · SOTA ] 05.06

OpenSeeker-v2：纯 SFT 在 10.6K 轨迹上跑出 search agent SOTA

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

→ arXiv (HF Papers 24↑)

[ 开源 · BYTEDANCE · 金融 · FOUNDATIONMODEL · 时间序列 · AAAI2026 ] 05.06

Bytedance Kronos：开源金融 K 线 foundation model 全家族

Kronos: Foundation Model for the Language of Financial Markets

→ GitHub (+540 daily stars / 23.1k 总 stars) / arXiv (AAAI 2026 接收)

[ 安全 · 红队 · AGENT · DREADNODE · 开源SDK ] 05.06

Agentic Red Teaming：Dreadnode SDK 把 AI 安全测试从 weeks 压到 hours

Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours

→ arXiv (cs.CR) / Dreadnode

[ ANTHROPIC · 企业 · MIDMARKET · BLACKSTONE · GOLDMAN · 生态信号 ] 05.06

Anthropic + Blackstone + Goldman Sachs 新企业 AI 服务公司：mid-market Claude 实施缺口

Building a New Enterprise AI Services Company

→ Anthropic / HN

[ 医疗 · AGENT · RCT · FITBIT · WEARABLE · CONVERSATIONAL ] 05.06

SymptomAI：Fitbit app × 13,917 人 RCT × OR=2.47 显著超过临床医师

SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment

→ arXiv (cs.HC) / 33 作者跨多机构

[ VIBE-CODING · CLAUDECODE · CURSOR · GEMINI · ENGINEERING-CULTURE · SKILLS ] 05.06

Agent Skills（Addy Osmani）：把 senior engineering 工作流编码为 markdown skill

Agent Skills

→ addyosmani.com / HN (370 pts · 205 评论)

[ 开源 · DEEPRESEARCH · 本地部署 · 隐私 · MCP · VIBE-RESEARCH ] 05.06

Local Deep Research：开源 deep research agent + 95% SimpleQA 主张

Local Deep Research

→ GitHub (+532 daily stars / 5 · 464 总 stars) / trending Python 第 2 位

[ 开源 · POOLSIDE · 编码AGENT · MOE · SWE-BENCH · 本地部署 ] 05.05

Poolside Laguna XS.2：33B/3B MoE 编码 agent 进入 36GB Mac

Poolside Launches Free, High-Performing Open Model Laguna XS.2 for Local Agentic Coding

→ Poolside / VentureBeat / HuggingFace

[ 论文 · 开源 · AI2 · VLA · 机器人 · 具身 · 多模态 ] 05.05

AI2 MolmoAct2：全开源 VLA + 720 小时双臂数据集，DROID 开箱 87.1%

MolmoAct2: Action Reasoning Models for Real-World Deployment

→ arXiv (HF Papers 70↑) / Allen Institute for AI / UW / NUS

[ OPENAI · POSTMORTEM · RL · REWARD-HACKING · PERSONALITY · SFT ] 05.05

OpenAI "Where the goblins came from" postmortem：RL reward 泄漏跨 personality 全家桶传染

Where the Goblins Came From: Reward Hacking Across Personalities

→ OpenAI / PC Gamer / Engadget / Futurism / Yahoo Tech

[ OPENAI · VOICE · WEBRTC · INFRA · ENGINEERING · KUBERNETES ] 05.05

OpenAI 公开低延迟语音 WebRTC infra 重构：split relay + transceiver 在 Kubernetes 落地

How OpenAI Delivers Low-Latency Voice AI at Scale

→ OpenAI / HN (434 pts)

[ 医疗 · O1 · 评测 · 急诊 · HARVARD · 诊断 ] 05.05

OpenAI o1 在 Harvard 急诊分诊基准上 65.8%，超过两位主治医师

OpenAI o1 Outperforms Doctors at ER Triage Diagnoses in Harvard Trial

→ Harvard Medical School / Singularity Hub / The Guardian / arXiv

[ GOOGLE · CHROME · GEMINI-NANO · 隐私 · 生态信号 · 自动安装 ] 05.05

Google Chrome 静默安装 4GB Gemini Nano：Component Updater 绕过用户同意

Chrome Silently Installs 4 GB Gemini Nano Model Without Consent

→ thatprivacyguy 博客 / HN (468 pts · 433 评论)

[ 论文 · CONTEXT-LEARNING · SELF-PLAY · AGENT · SKILL-EXTRACTION ] 05.05

Ctx2Skill：5 个冻结 LLM agent 自演化提取 skill，CL-Bench 全 SOTA

From Context to Skills: Can Language Models Learn from Context Skillfully?

→ arXiv (HF Papers 75↑ · 本日榜首)

[ ANTHROPIC · OPENAI · CYBER · OPUS4.7 · FRONTIER · 安全产品 ] 05.04

Anthropic Claude Security 公开 beta + OpenAI GPT-5.5-Cyber 受限 rollout：frontier cyber 模型双线开火

Claude Security Public Beta and OpenAI GPT-5.5-Cyber Restricted Rollout

→ Anthropic / OpenAI / Help Net Security / Infosecurity Magazine / IT Pro / DevOps.com / BusinessToday / Dataconomy / Storyboard18

[ 论文 · SJTU · SII · GAIR · 自演化 · AUTOML · 开源 ] 05.04

ASI-EVOLVE：AI-for-AI 闭环首次跨架构 / 数据 / 算法三栈实证

ASI-Evolve: AI Accelerates AI

→ arXiv (HF Papers) / SJTU / SII / GAIR / VentureBeat / NewAtlas / GitHub

[ ALIBABA · RL · AGENT · HDPO · METIS · TOOLCALL ] 05.04

Alibaba Metis + HDPO：把 "trigger-happy" agent 治成"自知何时不调工具"

Alibaba's Metis Agent and HDPO Reduce Redundant Tool Use 98% → 2%

→ Alibaba / TechBooky / VentureBeat

[ 论文 · 评测 · 长程任务 · 指令执行 · LLM能力诊断 ] 05.04

When LLMs Stop Following Steps：14 模型 × 55 数据集长程指令执行系统诊断

When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution

→ arXiv (cs.CL)

[ DEEPCLAUDE · LLAMAINDEX · 开源 · VIBE-CODING · SCAFFOLDING · FRONTIER · 成本 ] 05.04

DeepClaude（HN 566↑）+ LlamaIndex "95% AI 生成" 宣言：AI coding 工具栈两条同周信号

DeepClaude Show HN + LlamaIndex CEO on Scaffolding Layer Collapse

→ GitHub / HN (566 pts) / VentureBeat / Beyond the Pilot Podcast

[ SALESFORCE · AGENTFORCE · 企业 · AGENT · 编排 · DETERMINISTIC ] 05.04

Salesforce Agentforce Operations：deterministic 编排重塑企业 back-office

Salesforce Launches Agentforce Operations to Eliminate Back-Office Bottlenecks

→ Salesforce Newsroom / SiliconANGLE / Constellation Research / VentureBeat / MarTech / Demand Gen Report

[ 论文 · BENCHMARK · MATERIALSCIENCE · AIFORSCIENCE · AGENT ] 05.04

AutoMat：编码 agent 在材料科学复现仅 54.1%——AI for science 的能力缺口实证

Can Coding Agents Reproduce Findings in Computational Materials Science?

→ arXiv (cs.SE)

[ 论文 · APPLE · ICLR · RNN · SSM · 架构 ] 05.04

Apple ICLR 2026：ParaRNN（665× speedup）+ Tool-Use 解锁 SSM 长度泛化

Apple Machine Learning Research at ICLR 2026

→ Apple Machine Learning Research / ICLR 2026

[ 医疗 · LLM · 临床试验 · HARVARD · 研究 ] 05.04

OpenAI o1 在 Harvard ER triage 试验中 67% 正确诊断 vs 人类医生 50-55%

AI Outperforms Doctors in Harvard Trial of Emergency Triage Diagnoses

→ The Guardian / HN (451 pts) / Harvard

[ 开源 · GITHUB · TRENDING · 多AGENT · 金融 · TTS ] 05.04

TauricResearch/TradingAgents 单日 +2,181 stars：Multi-Agent LLM 金融框架开源生态信号

TradingAgents Goes Viral on GitHub

→ GitHub Trending Python (Daily)

[ XAI · GROK · FRONTIER · AGENT · REASONING · 定价 ] 05.02

xAI Grok 4.3：always-on reasoning + 16-Agent Heavy 并行调度

xAI Launches Grok 4.3 with Improved Agentic Performance and Lower Pricing

→ x.ai docs / VentureBeat / Artificial Analysis / The Decoder / HN (387 pts) / Vals AI / Andon Labs

[ 开源 · IBM · GRANITE · DENSE · 小模型 · 训练RECIPE ] 05.02

IBM Granite 4.1：8B dense 全面超越 32B MoE 的工程教学示范

Granite 4.1: IBM Open-Source Model Family

→ IBM / Firethering / HN (312 pts · 202 评论)

[ OPENAI · 开源 · SYMPHONY · ORCHESTRATION · CODEX · ELIXIR ] 05.02

OpenAI Symphony：Linear 作 control plane 的 Codex 编排 spec

An Open-Source Spec for Codex Orchestration: Symphony

→ OpenAI / GitHub / InfoWorld / DevOps.com / Help Net Security

[ OPENAI · AWS · BEDROCK · FRONTIER · 微软 · 企业 ] 05.02

OpenAI 全面登陆 AWS Bedrock + 微软独占终结

OpenAI Models, Codex, and Managed Agents Come to AWS

→ OpenAI / AWS / About Amazon / TechCrunch / CNBC

[ APPLE · CLAUDE · 生产事故 · 泄漏 · 内部架构 · VIBE-CODING ] 05.02

Apple Support App v5.13 误打包 CLAUDE.md：内部 Juno AI 协议曝光

Apple Accidentally Left CLAUDE.md Files in Apple Support App

→ Storyboard18 / Yahoo Tech / News9live / BeInCrypto / HN (372 pts) / 36kr / Aaron Perris (X)

[ 开源 · INCLUSIONAI · LING · MOE · LINEARATTENTION · 1T ] 05.02

Inclusion AI Ling-2.6 系列：1T MoE + 104B-A7B Hybrid Linear Attention

Ling-2.6-1T and Ling-2.6-flash by Inclusion AI

→ HuggingFace / Inclusion AI

[ 论文 · SAFETY · ALIGNMENT · RL · FRONTIER · 红队 ] 05.02

Exploration Hacking：LLM 学会主动抵抗 RL 训练

Exploration Hacking: Can LLMs Learn to Resist RL Training?

→ arXiv (HF Papers)

[ 论文 · BENCHMARK · AGENT · LIVE · 多系统 ] 05.02

Claw-Eval-Live：可演化的真实工作流 agent 基准

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

→ arXiv (HF Papers 24↑)

[ 论文 · 训练 · 蒸馏 · RLVR · 多模态 ] 05.02

Co-Evolving Policy Distillation：多模态多专家并行训练新范式

Co-Evolving Policy Distillation

→ arXiv (HF Papers 36↑)

[ 开源 · 训练 · PIPELINE · CONSUMER-GPU · LORA ] 05.02

RoundPipe：8× RTX 4090 单机 LoRA fine-tune Qwen3-235B

Efficient Training on Multiple Consumer GPUs with RoundPipe

→ arXiv (HF Papers 28↑)

[ ANTHROPIC · CLAUDE · 创作 · CONNECTORS · 生态 ] 05.02

Anthropic Claude for Creative Work + Claude Design：5 大创作工具原生集成

Claude for Creative Work + Claude Design

→ Anthropic / Releasebot

[ 论文 · 机器人 · 人形 · 视频生成 · VLA ] 05.02

ExoActor：第三人称视频生成作为人形机器人统一控制接口

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

→ arXiv (HF Papers 35↑)

[ 开源 · NVIDIA · NEMOTRON · MOE · OMNI-MODAL · 多模态 · 推理 ] 05.01

NVIDIA Nemotron 3 Nano Omni 30B-A3B：开源 omni-modal MoE 推理模型

Nemotron 3 Nano Omni: 30B-A3B Open Omni Reasoning Model

→ NVIDIA Build / HuggingFace / Unsloth Docs / Build Fast With AI / Cobus Greyling

[ 安全 · 供应链攻击 · PYPI · PYTORCH · 凭据窃取 · 生产事故 ] 05.01

Shai-Hulud worm 攻入 PyPI：PyTorch Lightning 2.6.2/2.6.3 凭据窃取攻击

Shai-Hulud Themed Malware Found in PyTorch Lightning AI Training Library

→ Semgrep / The Hacker News / Aikido / Socket / OX Security / SafeDep / HN (389 pts)

[ 论文 · MICROSOFT · AGENT · 长程任务 · 合成数据 · RL ] 05.01

Microsoft Synthetic Computers at Scale：千计合成电脑 × 千轮 turn 长程生产力 agent 训练

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

→ arXiv (HF Papers 6↑) / Microsoft Research

[ 论文 · UIUC · AGENT · 多模型 · 科学 · FM协作 ] 05.01

Heterogeneous Scientific Foundation Model Collaboration / Eywa：科学 FM 与 LLM agent 共生框架

Heterogeneous Scientific Foundation Model Collaboration

→ arXiv (HF Papers 112↑ · 本日榜首) / UIUC

[ 论文 · SURVEY · 视觉生成 · 世界模型 · AGENT ] 05.01

Visual Generation in the New Era: 从 atomic mapping 到 agentic world modeling

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

→ arXiv (HF Papers 54↑)

[ 论文 · 安全 · RL · ALIGNMENT · MODEL-ORGANISM ] 05.01

Exploration Hacking：LLM 在 RL 训练中战略性压制自身探索

Exploration Hacking: Can LLMs Learn to Resist RL Training?

→ arXiv (HF Papers 较低但理论高度) / 9 作者多机构

[ 论文 · BENCHMARK · AGENT · 持续刷新 · 抗污染 ] 05.01

Claw-Eval-Live：动态执行环境下的 agent 持续基准

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

→ arXiv (HF Papers 4↑) / CUHK

[ 开源 · 多AGENT · 金融 · LANGGRAPH · TRADINGAGENTS ] 05.01

TauricResearch TradingAgents v0.2.4：5 层 12 agent 模拟交易公司

TradingAgents v0.2.4: Multi-Agent LLM Framework Simulating an Entire Trading Firm

→ GitHub (周新增 +2 · 023 stars · 58k 总) / arXiv 2412.20138 / DEV Community

[ 生产事故 · ANTHROPIC · 可靠性 · POSTMORTEM ] 05.01

Anthropic API 4/28-30 三日连续故障：Opus 4.7 + Haiku 4.5 + 认证 outage

Anthropic API: Three Consecutive Days of Elevated Errors Across Claude Stack

→ status.anthropic.com / IsDown / TechCrunch / CNBC

[ 政策 · OSS · 治理 · LLM · ZIG ] 05.01

Zig 项目正式禁止 LLM 贡献：Loris Cro 公开"Contributor Poker" 论文

Zig's Firm Anti-AI Contribution Policy: 'Contributor Poker' by Loris Cro

→ Zig Software Foundation / Simon Willison / Michael Tsai / HN (652 pts)

[ 隐私 · CLAUDE · OPUS · STYLOMETRIC · 模型行为 ] 05.01

Claude Opus 4.7 stylometric identification：Kelsey Piper 125 字识别实验

Claude Opus 4.7 Identified a Writer from 125 Words She'd Never Published

→ BoingBoing / Kelsey Piper / The Argument / HN (334 pts)

[ 开源 · SHELL · AGENT · 极简 · 工程美学 ] 05.01

Pu.sh：400 行 Shell 写完的完整 coding agent harness

Pu.sh – A Full Coding-Agent Harness in 400 Lines of Shell

→ HN Show HN (76 pts) / pu.dev / GitHub NahimNasser/pu

◉ 2026.04 ◉

[ 开源 · MISTRAL · DENSE · AGENT · SWE-BENCH · 欧洲 ] 04.30

Mistral Medium 3.5：128B dense + Vibe 云端异步 coding agent

Mistral Medium 3.5 + Vibe Remote Agents

→ Mistral Blog / TestingCatalog / HN 475 pts / docs.mistral.ai

[ 论文 · Z.AI · GLM · 多模态 · AGENT · VLM ] 04.30

Z.ai GLM-5V-Turbo：原生多模态 agent 基础模型

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

→ arXiv (HF Papers 70↑) / Z.ai

[ 论文 · 扩散LLM · 蒸馏 · 小模型 · 开源 ] 04.30

TIDE：跨架构扩散 LLM 蒸馏，0.6B student HumanEval 32.3 → 48.78

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

→ arXiv (HF Papers 56↑) / 北京大学

[ 安全 · PROMPT-INJECTION · AGENT · 生产事故 · 金融 ] 04.30

Ramp Sheets AI 真实生产 prompt injection 数据外泄

Ramp's Sheets AI Exfiltrates Financials

→ PromptArmor / HN (132 pts · 48 评论)

[ 研究 · 医疗 · LLM · 安全 · 评测方法学 ] 04.30

Diabettech：27,000 次 AI 数碳实验给医疗 LLM 部署画下安全红线

I Asked AI to Count My Carbs 27,000 Times

→ Diabettech / HN (240 pts · 298 评论)

[ 论文 · 推理优化 · 稀疏注意力 · KV-CACHE · GPU-CPU ] 04.30

SPIN：稀疏注意力 + GPU-CPU 分层 KV 存储，吞吐 1.66-5.66× 超 vLLM

SPIN: Sparse Attention with Hierarchical Memory

→ arXiv (cs.LG)

[ ANTHROPIC · API · SONNET · 1M上下文 · API变更 · 🔄进展更新 ] 04.30

Anthropic 1M 上下文 beta 在 Sonnet 4.5/4 上正式退役

Anthropic Retires 1M Context Beta on Older Sonnet Models

→ Anthropic Release Notes / Claude Platform Docs

[ BENCHMARK · 结构化输出 · JSON · 多模态 · 评测方法学 ] 04.30

Structured Output Benchmark：Valid JSON ≠ Correct JSON，金融 frontier 模型实际值准确率仅 73-80%

Structured Output Benchmark for LLMs

→ Interfaze / HN (54 pts)

[ 开源 · MIMO · XIAOMI · MOE · 1M上下文 · FP8 · MTP ] 04.29

Xiaomi MiMo-V2.5-Pro：1.02T MoE / 1M 上下文 / 漏报补登

Xiaomi Releases MiMo-V2.5-Pro: Frontier Open Model with 40-60% Lower Token Cost

→ Xiaomi MiMo Blog / HuggingFace / VentureBeat / MarkTechPost / Artificial Analysis

[ 论文 · 多模态 · 统一模型 · ENCODER-FREE · 扩散 · 像素空间 ] 04.29

Tuna-2：像素 embedding 击败视觉编码器，重新定义统一多模态架构

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

→ arXiv (HF Papers 80↑) / Meta AI / 港大 / Waterloo

[ 论文 · BENCHMARK · AGENT · COWORKER · 多模态 · 多天 ] 04.29

ClawMark：100 任务多轮多日多模态 coworker agent 基准

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

→ arXiv (HF Papers 83↑)

[ 论文 · AGENT · 多AGENT · 组织 · 形式化 · 开源 ] 04.29

OneManCompany (OMC)：把多 agent 编成一家"AI 公司"

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

→ arXiv (HF Papers 80↑) / 华为诺亚方舟 / UCL / 利物浦大学

[ 研究 · LLM · 实验 · 历史数据 · SCALING-LAW · 开源 ] 04.29

Talkie：13B 仅用 1930 年前文本训练的 vintage 语言模型

Talkie: A 13B vintage language model from 1930

→ HN (553 pts) / Anthropic Research Support / Coefficient Giving

[ 论文 · 视频生成 · 世界模型 · RL · 3D一致性 ] 04.29

World-R1：用强化学习对齐文生视频的 3D 几何一致性

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

→ arXiv (HF Papers 90↑) / Microsoft Research / 浙江大学

[ 论文 · 长上下文 · 混合架构 · UPCYCLING · 推理优化 ] 04.29

HyLo：把预训练 transformer "升级"成混合架构 + 32× 上下文扩展

Long-Context Aware Upcycling: HyLo for Hybrid LLM Scaling

→ arXiv (cs.LG)

[ ANTHROPIC · CLAUDE · POSTMORTEM · CODE-REVIEW · 🔄进展更新 ] 04.29

🔄 Anthropic 把 Opus 4.7 加入 Code Review 流程，回测发现自家 Postmortem 三 bug 中的关键漏判

Anthropic Code Review now uses Opus 4.7 + additional repository context

→ Anthropic Engineering / 4/26 主条目延展

[ 开源 · VLLM · 推理引擎 · CUDA · GRPC ] 04.29

vLLM v0.20.0：CUDA 13.0 默认 + torch 2.11 + gRPC serving

vLLM v0.20.0 Release

→ vLLM GitHub Releases (~17h ago)

[ 数学 · LLM · ERDŐS · 数论 · 研究协作 ] 04.27

23 岁业余玩家 + GPT-5.4 Pro 解出 60 年 Erdős Problem 1196

Amateur armed with ChatGPT 'vibe-maths' a 60-year-old problem

→ Scientific American / HN (760 pts) / Rényi Institute / GIGAZINE / erdosproblems.com

[ 评测 · BENCHMARK · 污染 · SWE-BENCH · FRONTIER ] 04.27

OpenAI 退役 SWE-bench Verified：三大 frontier 模型全部记忆污染

Why SWE-bench Verified no longer measures frontier coding capabilities

→ OpenAI Frontier Evals / Latent.Space / Scale AI / HN (320 pts) / SemiAnalysis

[ 论文 · 世界模型 · 分类法 · 综述 · AGENT ] 04.27

Agentic World Modeling: 提出 Levels × Laws 二维分类法

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

→ arXiv (HF Papers 15↑) / 42 作者大综述

[ 论文 · 推理 · COT · LATENT · 训练方法 ] 04.27

"Thinking Without Words"：Abstract CoT 让推理 token 砍到 1/11.6

Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought

→ arXiv / IBM Research

[ 论文 · 长上下文 · 类脑 · 稀疏注意力 · 神经形态 ] 04.27

SpikingBrain2.0：5B 类脑模型 + DSSA 跑 1000 万 token 上下文

SpikingBrain2.0: Brain-Inspired Foundation Models for Efficient Long-Context and Cross-Platform Inference

→ arXiv (cs.LG)

[ 论文 · AGENT · 经济学 · SWE-BENCH · TOKEN ] 04.27

"How Do AI Agents Spend Your Money?"：8 个前沿模型的 token 经济学系统研究

Analyzing and Predicting Token Consumption in Agentic Coding Tasks

→ arXiv / Anthropic Economic Index 同期

[ 论文 · SCALING-LAW · 实验设计 · 理论 ] 04.27

Spend Less, Fit Better：Scaling Law 拟合作为预算感知实验设计

Budget-Efficient Scaling Law Fitting via Active Experiment Selection

→ arXiv (cs.LG)

[ GOOGLE · 持续学习 · CATASTROPHIC-FORGETTING · LLM · 多时间尺度 ] 04.27

Google "Nested Learning"：多时间尺度交错对抗 catastrophic forgetting

Google's 'Nested Learning' paradigm and Hope models

→ VentureBeat / Google Research

[ CHROME · 浏览器 · LLM · 本地推理 · API ] 04.27

Chrome 浏览器 Prompt API：原生 LLM 接入完整 web 栈

The Prompt API for Chrome

→ HN (162 pts) / Chrome for Developers

[ AGENT · 事故 · 权限 · 安全 ] 04.27

真实世界事故：AI agent 删除 Replit 生产数据库

An AI agent deleted our production database

→ HN (740 pts · rank 4) / Twitter @lifeof_jer

[ 开源 · AGENT · TDD · CLAUDE-CODE · 开发工具 ] 04.27

EvanFlow：Claude Code 的 TDD 反馈环 harness

EvanFlow – A TDD driven feedback loop for Claude Code

→ HN (81 pts · Show HN) / GitHub

[ 论文 · 理论 · 深度学习 · SCALING · 学科宣言 ] 04.26

深度学习走向可预测科学：14 人联署提出"learning mechanics"

There Will Be a Scientific Theory of Deep Learning

→ arXiv / HN (351 pts) / lesswrong / alphaXiv

[ 开源 · 推理优化 · SGLANG · VLLM · MILES · RL · FP8 ] 04.26

DeepSeek-V4 Day 0：SGLang + Miles 把 1M 上下文 + Verified RL 训练栈一次开源

DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with SGLang and Miles

→ LMSYS Blog / HN (57 pts) / SGLang

[ ANTHROPIC · CLAUDE · POSTMORTEM · EVALS · 工程教训 ] 04.26

Anthropic Claude Code 4 月降级三 bug 复盘：evals 漏检的工程教训

An update on recent Claude Code quality reports

→ Anthropic Engineering / VentureBeat / SmartScope

[ OPENAI · 安全 · JAILBREAK · 生物安全 · 红队 ] 04.26

OpenAI GPT-5.5 Bio Bug Bounty：$25K 求 universal jailbreak

GPT-5.5 Bio Bug Bounty

→ OpenAI / GBHackers / NewsBytes

[ ANTHROPIC · AGENT · 实验 · 公平性 · 多AGENT谈判 ] 04.26

Anthropic Project Deal：69 名员工 + 4 个市场 + 186 笔成交揭示"agent quality gap"

Project Deal Marketplace

→ TechCrunch / Cybernews / 多家媒体

[ 论文 · 视频生成 · 4D · 相机控制 · 世界模型 ] 04.26

Vista4D：4D 点云锚定的视频重拍跃居 HF Papers 99 投票 🔄

Vista4D: Video Reshooting with 4D Point Clouds

→ arXiv / HF Papers (99↑) / Eyeline Labs

[ BENCHMARK · LAMBDA-CALCULUS · 形式推理 · 评测 ] 04.26

LamBench：120 题纯 lambda calculus 基准揭示 GPT-5.5 反而比 5.3 弱 16 个点

Lambda Calculus Benchmark for AI

→ HN (137 pts) / GitHub

[ 开源 · AGENT · 记忆 · PGVECTOR · MCP ] 04.26

Stash：Apache 2.0 的 agent 持久记忆层 + pgvector 多阶段 consolidation pipeline

Open source memory layer for AI agents

→ HN (172 pts) / GitHub

[ 论文 · 具身智能 · IMU · LLM · 4D重建 · 无视觉 ] 04.26

"Seeing Without Eyes"：用 IMU 传感器 + LLM 重建 4D 人体与场景

Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs

→ arXiv (cs.CV)

[ 论文 · 视频 · 时间建模 · 自监督 · 世界模型 ] 04.26

"Seeing Fast and Slow"：自监督学习视频时间流，把"播放速度"做成可控维度

Seeing Fast and Slow: Learning the Flow of Time in Videos

→ arXiv (cs.CV) / Cornell + Washington

[ 论文 · 理论 · 公平性 · 校准 · 样本复杂度 ] 04.26

Multicalibration 样本复杂度：Õ(ε⁻³) 的紧上下界

The Sample Complexity of Multicalibration

→ arXiv (cs.LG)

[ 开源 · AGENT · OPENCLAW · GPT-5.5 · 多AGENT ] 04.26

OpenClaw v2026.4.23：GPT-5.5 + GPT-image-2 OAuth + forked-context subagents

OpenClaw 2026.4.23 Release

→ GitHub Releases / Releasebot / 极道

[ 开源 · DEEPSEEK · LLM · 1M上下文 · FP4训练 · MOE ] 04.25

DeepSeek V4 Pro / Flash 开源：1.6T MoE + 1M 上下文 + Codeforces 3206

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

→ DeepSeek API Docs / HuggingFace / Latent.Space / Simon Willison / HN (1 · 968 pts)

[ OPENAI · 开源 · 隐私 · PII · 生产工具 ] 04.25

OpenAI Privacy Filter 开源：浏览器内的 PII 脱敏闭环

Introducing OpenAI Privacy Filter

→ OpenAI / HuggingFace / VentureBeat

[ XAI · 语音 · AGENT · 实时 · TAU-VOICE-BENCH ] 04.25

xAI Grok Voice Think Fast 1.0：思考与延迟解耦的语音 agent

Grok Voice Think Fast 1.0

→ xAI / TestingCatalog / Phemex

[ ANTHROPIC · AGENT · 记忆 · 企业 · 可审计 ] 04.25

Anthropic Memory for Claude Managed Agents：filesystem-mounted 的可审计记忆

Built-in memory for Claude Managed Agents

→ Anthropic / TestingCatalog

[ 论文 · 世界模型 · 评测 · 多模态 · 基准 ] 04.25

WorldMark：交互式视频世界模型的统一基准

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

→ arXiv (HF Papers 33↑)

[ 论文 · 具身智能 · 人形机器人 · RQ-VAE · 世界模型 ] 04.25

UniT：用视觉锚定 RQ-VAE 把人和人形机器人压进同一动作 codebook

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

→ arXiv (HF Papers 34↑)

[ 论文 · 时间序列 · 多模态 · ACL2026 · CURRICULUM-LEARNING ] 04.25

LLaTiSA：把 VLM 接到时间序列上的难度分级推理

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

→ arXiv (HF Papers 第一 79↑) / ACL 2026 Findings

[ OPENAI · 领域模型 · 生命科学 · CODEX · 药物发现 ] 04.25

GPT-Rosalind：OpenAI 首个领域专精模型，瞄准生命科学

Introducing GPT-Rosalind for life sciences research

→ OpenAI / MarkTechPost / FierceBiotech

[ 开源 · 编译器 · DSL · GPU · KERNEL工程 ] 04.25

TileLang v0.1.9：Pythonic GPU/CPU kernel DSL 走向多后端

TileLang: Domain-Specific Language for High-Performance Kernels

→ GitHub Trending (Python 日榜 · 5 · 738 stars +62/day)

[ 开源 · AGENT · 多AGENT协作 · GIT · 记忆 ] 04.25

WuPHF：Karpathy 风格的 LLM wiki，让多 agent 共享 git-native 大脑

Karpathy-style LLM wiki your agents maintain

→ HN (122 pts) / GitHub

[ 硬件 · NVIDIA · OPENAI · 推理经济学 · BLACKWELL ] 04.25

NVIDIA × OpenAI GB200 NVL72：35× token 成本下降的硬件经济学

OpenAI's New GPT-5.5 Powers Codex on NVIDIA Infrastructure

→ NVIDIA Blog / TechRadar

[ OPENAI · GPT-5.5 · LLM · AGENT · 科学研究 ] 04.24

GPT-5.5 发布：更省 token 的科研主力，替人证出新 Ramsey 结果

Introducing GPT-5.5

→ OpenAI · TechCrunch · Fortune · CNBC · Axios

[ 开源 · LLM · AGENT · KIMI · LONG-HORIZON ] 04.24

Kimi K2.6 开源：1T MoE + 300 sub-agent 并行 + 12 小时自主执行

Kimi K2.6 Technical Report

→ Kimi Blog · MarkTechPost · SCMP · Yicai Global

[ 开源 · QWEN · DENSE · CODING · LLM ] 04.24

Qwen3.6-27B：27B 稠密模型声称 "全面超过 397B MoE" 的编码表现

Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model

→ HN (948 pts) · Qwen Blog · HF Models

[ 硬件 · TPU · GOOGLE · 训推分离 · 基础设施 ] 04.24

Google 第八代 TPU：TPU 8t / TPU 8i 双芯片面向 Agentic 时代

Our eighth generation TPUs: two chips for the agentic era

→ Google Blog · HN (444 pts)

[ 论文 · 扩散语言模型 · 多模态 · 开源 · 生成模型 ] 04.24

inclusionAI LLaDA2.0-Uni：16B 扩散-LM 统一多模态理解与生成

LLaDA 2.0 Universal

→ HF Models · arXiv

[ GOOGLE · GEMINI · GEMMA · OPENAI · AGENT · 多模态 ] 04.24

Moonshot Kimi K2.6 + Google TPU v8 双周：基础栈全面刷新

Gemini Enterprise Agent Platform Launch

→ Crypto Integrated · Google Blog

[ 论文 · AGENT · MCP · 上下文优化 · 工具调用 ] 04.24

Tool Attention Is All You Need：MCP tool token 从 47.3k 压到 2.4k

Tool Attention Is All You Need

→ arXiv

[ 世界模型 · 交互 · 多模态 · 物理仿真 ] 04.24

Odyssey-2 Max：实时交互世界模型主打"物理一致性"

Odyssey-2 Max

→ AI News

[ 开源 · AGENT · ML工作流 · HUGGINGFACE · 自主研究 ] 04.24

HuggingFace ml-intern：读论文 / 训模型 / 部署的全自动 ML 工程师

ml-intern

→ GitHub (+720/day · 3 · 516 stars)

[ AGENT · 安全 · 沙盒 · MICROVM · 开源 ] 04.24

Tier-B：超常规 agent 基础设施工具链

→ HN (54 pts) · GitHub

[ LLM · XAI · GROK · 长上下文 · 多模态 ] 04.19

xAI 发布 Grok 4.3 Beta：参数据称翻倍 + 原生文档生成

xAI Releases Grok 4.3 Beta

→ llm-stats · BuildFastWithAI · Phemex News · AI News

[ AGENT · 基础设施 · CLOUDFLARE · 记忆 · 工具链 ] 04.19

Cloudflare Agent Memory：把"记忆"从业务代码下沉到基础设施

Introducing Cloudflare Agent Memory

→ Cloudflare Blog · AI News · The Register

[ 论文 · 强化学习 · RLVR · 奖励黑客 · 训练方法 ] 04.19

LLMs Gaming Verifiers：RLVR 奖励黑客的结构性演示

LLMs Gaming Verifiers: RLVR Reward Hacking

→ arXiv

[ ANTHROPIC · CLAUDE · 设计 · OPUS4.7 · 多模态产品 ] 04.19

Anthropic Claude Design 发布：Opus 4.7 驱动的对话式设计产品

Anthropic Launches Claude Design

→ Anthropic · TechCrunch · VentureBeat · MacRumors

[ 论文 · 评测 · LLM-AS-A-JUDGE · 可靠性 ] 04.19

Evaluation Faking in Judges：stakes signaling 让 LLM 评分系统性偏移 30%

Evaluation Faking in Judges

→ arXiv

[ 论文 · 推理优化 · 投机解码 · REASONING · LLM系统 ] 04.19

SpecGuard：验证感知的投机解码

SpecGuard: Verification-Aware Speculative Decoding

→ arXiv · HF Papers (补强)

[ 开源 · AGENT · 移动AI · 训练数据 · ANDROIDWORLD ] 04.19

OpenMobile：开源 Mobile Agent 框架在 AndroidWorld 达到 64.7%

OpenMobile: Mobile Agents with Task & Trajectory Synthesis

→ arXiv

[ 论文 · 推理优化 · 成本控制 · LLM路由 ] 04.19

Atropos：按 trace 预测失败并自动切模型，实现 74% 性能 / 24% 成本

Atropos: Inference Cost-Benefit Optimization

→ arXiv

[ 推理优化 · WEBASSEMBLY · APPLE · 边缘AI · 零拷贝 ] 04.19

Driftwood：WebAssembly × Apple Silicon 统一内存的零拷贝 GPU 推理

Driftwood: Zero-Copy GPU Inference from WebAssembly on Apple Silicon

→ HN (86 points · 33 comments) · abacusnoir.com

[ 开源 · AGENT · BYTEDANCE · 长程任务 · 工具链 ] 04.19

ByteDance DeerFlow 2.0：62.6K 星的长程 SuperAgent harness

ByteDance DeerFlow 2.0 SuperAgent

→ GitHub Trending (Python 日榜 · +214/day · 总计 62 · 635)

[ 开源 · AGENT · 教育AI · 个性化学习 · RAG ] 04.19

HKUDS DeepTutor：Agent 原生的个性化学习助手

HKUDS DeepTutor: Agent-Native Personalized Learning Assistant

→ GitHub Trending (Python 日榜 · +470/day · 总计 19 · 902)

[ OPENAI · 网络安全 · GPT-5.4 · 生态 · 政策 ] 04.19

OpenAI Trusted Access for Cyber：GPT-5.4-Cyber 专项模型 + $10M API 基金

OpenAI Trusted Access for Cyber

→ OpenAI Research Blog

[ 开源 · 3D · 世界模型 · NVIDIA · 空间智能 ] 04.18

[NVIDIA 开源 Lyra 2.0：单张照片到可自由游走的 3D 世界]

Lyra 2.0: Explorable Generative 3D Worlds

→ Research Blog / GitHub / HF Models / AI News

[ 开源 · TTS · 扩散模型 · 多语言 · 语音生成 ] 04.18

[OpenBMB 发布 VoxCPM2：2B 参数的 tokenizer-free 多语言 TTS]

VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

→ GitHub / HF Models / AI News

[ 论文 · 训练方法 · 蒸馏 · SFT · LLM ] 04.18

[TESSY：teacher-student 合作合成 SFT 数据，解开 reasoning 蒸馏的风格陷阱]

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

→ arXiv / HF Papers

[ AGENT · 开源 · 工具链 · OPENAI · SDK ] 04.18

[OpenAI Agents SDK v0.14 Sandbox Agents：持久 workspace + 容器化执行 + session memory]

OpenAI Agents Python: Sandbox Agents with Persistent Workspaces

→ GitHub Trending

[ 论文 · 扩散模型 · 后训练 · RLHF · 视觉生成 ] 04.18

[LeapAlign：两步轨迹把 flow matching 后训练成本直接压低]

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

→ arXiv / HF Papers

[ 论文 · 视频生成 · 动画 · 评测 · 基准 ] 04.18

[AnimationBench：首个角色中心的动画视频生成评测]

AnimationBench: Are Video Models Good at Character-Centric Animation?

→ arXiv

[ 论文 · 评测 · LLM-AS-A-JUDGE · 可靠性 · 裁判模型 ] 04.18

[LLM Judge Reliability 诊断：用 transitivity 违反率揭穿裁判模型的隐性不一致]

Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations

→ arXiv

[ 论文 · AGENT · 综述 · CLAUDE · 设计空间 ] 04.18

[Dive into Claude Code：agent 设计空间的系统性综述]

Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

→ arXiv / HF Papers

[ RAG · 知识图谱 · 检索 · 开源 ] 04.18

[Graph RAG 真正的问题：不是检索"相似"，而是检索"相关"]

Graph RAG Finds What's Similar. We Should Aim for What's Relevant

→ HN / GitHub

[ GEMINI · 学术工作流 · 形式化推理 · AI评审 ] 04.18

[Google Gemini 在 STOC 2026 给理论计算机论文做自动反馈]

Gemini Provides Automated Feedback for Theoretical Computer Scientists at STOC 2026

→ Research Blog

[ AGENT · 自主性 · 多AGENT · 现实部署 · 评测 ] 04.18

[Andon Market：一场 3 年零售租约上的 AI 自主经营实验]

We Gave an AI a 3-Year Retail Lease and Asked It to Make a Profit

→ HN

[ LLM · CLAUDE · AGENT · 编码 · 多模态 · 推理 ] 04.17

[Claude Opus 4.7 发布：长程编码与视觉能力同步升级]

Introducing Claude Opus 4.7

→ Research Blog / HN / X

[ 开源 · QWEN · MOE · LLM · 多模态 · AGENT ] 04.17

[阿里开源 Qwen3.6-35B-A3B：3B 激活的多模态 MoE 前推到开发者主战场]

Qwen3.6-35B-A3B: Agentic coding power, now open to all

→ HF Models / HN / X

[ 机器人 · 具身智能 · VLA · 基础模型 · 泛化 ] 04.17

[π0.7：机器人基础模型首次显露组合式泛化]

π0.7: a Steerable Model with Emergent Capabilities

→ Research Blog / X / AI News

[ 论文 · 推理优化 · 编译器 · 张量程序 · LLM系统 ] 04.17

[Prism：张量程序符号超优化首次打到 LLM 工作负载]

Prism: Symbolic Superoptimization of Tensor Programs

→ arXiv

[ 论文 · AGENT · 评测 · DEEPRESEARCH · 检索 ] 04.17

[DR3-Eval：把 Deep Research Agent 评测做成可复现沙盒]

DR3-Eval: Towards Realistic and Reproducible Deep Research Evaluation

→ arXiv / HF Papers

[ 论文 · 机器人 · 3DPOLICY · 扩散模型 · 训练稳定性 ] 04.17

[R3D：3D Policy Learning 的稳定性问题被系统拆开了]

R3D: Revisiting 3D Policy Learning

→ arXiv

[ 论文 · 3DGS · 3D重建 · 前馈模型 · 空间智能 ] 04.17

[GlobalSplat：前馈式 3DGS 开始摆脱“视图越多资产越肥”的老问题]

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

→ arXiv / HF Papers

[ 论文 · 自动驾驶 · 强化学习 · 扩散模型 · 规划 ] 04.17

[RAD-2：自动驾驶闭环 RL 不再把稀疏奖励硬砸到整条轨迹上]

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

→ arXiv / HF Papers

[ 开源工具 · 推理平台 · AGENT · 多模型 · 云基础设施 ] 04.17

[Cloudflare AI Platform：统一推理层开始为 agent 工作流定型]

Cloudflare’s AI Platform: an inference layer designed for agents

→ Research Blog / HN

[ ANDROID · AGENT · 开发工具 · CLI · 技能库 ] 04.17

[Android CLI + Skills + Knowledge Base：Google 给终端 agent 补上官方 Android 工具面]

Android CLI: Build Android apps 3x faster using any agent

→ Research Blog / HN

[ 论文 · 对齐 · ANTHROPIC · 自动化研究 · AI安全 ] 04.16

Anthropic 自动对齐研究员：AI 做对齐研究达到 97% 性能恢复

Automated Alignment Researchers: Using Large Language Models to Scale Scalable Oversight

→ Anthropic Research Blog · HN · AI News

[ 论文 · 视频生成 · 音频 · BYTEDANCE · 多模态 ] 04.16

Seedance 2.0：首个原生音视频一体生成模型

Seedance 2.0: Advancing Video Generation for World Complexity

→ HuggingFace Papers (93 upvotes) · arXiv · ByteDance Seed

[ 开源 · 3D · 世界模型 · 腾讯 · 空间智能 ] 04.16

腾讯开源 HY-World-2.0：文本到可导航 3D 世界

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

→ HuggingFace Models (129 likes) · GitHub · 多家科技媒体

[ 开源 · 图像生成 · DIT · 百度 · 扩散模型 ] 04.16

百度 ERNIE-Image 开源：8B DiT 登顶开源 T2I 三大榜

Baidu ERNIE-Image: 8B Open-Source Text-to-Image Model with State-of-the-Art Performance

→ HuggingFace Models (350 likes) · GitHub · 多家媒体

[ 开源 · AGENT · 自进化 · 技能树 · 工具链 ] 04.16

GenericAgent：3.3K 行种子 → 自生长技能树的自主 Agent

GenericAgent: Self-Evolving Agent with Skill Tree Growth

→ GitHub Trending (Python 日榜 · +446 stars/day · 总计 2 · 439)

[ 论文 · 视觉生成 · 奖励模型 · SCALING · 扩散模型 ] 04.16

RationalRewards：推理奖励在训练时和测试时双向提升视觉生成

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

→ HuggingFace Papers (88 upvotes) · arXiv

[ 论文 · 空间智能 · 自进化 · VLM · 具身智能 ] 04.16

SpatialEvo：确定性几何环境驱动的自进化空间智能

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

→ HuggingFace Papers (57 upvotes) · arXiv

[ 开源 · 推理优化 · 投机解码 · 扩散模型 ] 04.16

DFlash + DDTree：块扩散投机解码实现 6x 无损加速

DFlash: Block Diffusion for Flash Speculative Decoding

→ GitHub Trending (+183 stars/day · 总计 1 · 456) · arXiv

[ 开源 · 推理优化 · APPLE · 本地部署 · 工具链 ] 04.16

oMLX：Apple Silicon 专属 LLM 推理服务器，菜单栏管理 + SSD 缓存

oMLX: LLM Inference Server with Continuous Batching & SSD Caching for Apple Silicon

→ GitHub Trending (Python 日榜 · +234 stars/day · 总计 10 · 329)

[ 论文 · 基准 · 推理 · LLM · COT ] 04.16

LongCoT：2500 道专家设计题目的长程推理基准

LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning

→ arXiv

[ 论文 · 训练方法 · AGENT · 自动化 · LLM ] 04.16

TREX：Agent 驱动的树形探索自动化 LLM 微调

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

→ HuggingFace Papers (6 upvotes) · arXiv

[ GOOGLE · GEMINI · 产品 · MAC · 桌面AI ] 04.16

Google Gemini 原生 Mac 桌面应用上线

Google Gemini App Launches Natively on Mac

→ HN (147 points · 81 comments) · Google Blog · 9to5Mac · MacRumors · TechCrunch

[ 论文 · DLM · 推理优化 · 并行解码 · LLM ] 04.15

扩散语言模型首次追平自回归质量：内省步进解码

Introspective Diffusion Language Models

→ arXiv · HuggingFace Papers (43 upvotes) · HN (150 points · 35 comments)

[ 论文 · 推理优化 · 投机解码 · NVIDIA · 基准 ] 04.15

NVIDIA SPEED-Bench：投机解码基准中的系统性测量偏差

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

→ HuggingFace Papers (2 · 470 upvotes 🔥) · arXiv

[ AI安全 · 网络安全 · ANTHROPIC · MYTHOS · 政府评估 ] 04.15

🔄 英国政府正式评估 Claude Mythos 网络攻击能力

Evaluation of Claude Mythos Preview's Cyber Capabilities

→ AISI（英国 AI 安全研究院） · HN (53 points · 29 comments)

[ 论文 · 强化学习 · RLHF · 训练方法 · LLM ] 04.15

MEDS：用记忆消除 RL 训练中的采样多样性崩塌

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

→ HuggingFace Papers (77 upvotes) · arXiv

[ 论文 · 数学 · 形式化证明 · ALPHAEVOLVE · DEEPMIND ] 04.15

AI 数学革命：形式化证明、竞赛夺冠与 42 年悬案

The AI Revolution in Math Has Arrived

→ Quanta Magazine · HN (97 points · 50 comments)

[ 论文 · 视频生成 · 多模态 · BYTEDANCE · 可控生成 ] 04.15

OmniShow：统一多模态条件的人物-物体交互视频生成

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

→ HuggingFace Papers (35 upvotes) · arXiv

[ 开源 · AGENT · AMD · 本地推理 · 隐私 ] 04.15

AMD GAIA：完全本地运行的开源 AI Agent 框架

GAIA: Open-Source Framework for Building AI Agents on Local Hardware

→ HN (138 points · 33 comments)

[ 开源 · 推理优化 · VLLM · 投机解码 · 工具链 ] 04.15

vLLM v0.19.0：零气泡投机解码与 Gemma 4 全支持

vLLM v0.19.0: Zero-Bubble Speculative Decoding + Full Gemma 4 Support

→ GitHub (vllm-project/vllm)

[ 论文 · AGENT · 调试 · 可解释性 · 工具链 ] 04.15

CodeTracer：可溯源 Agent 状态的调试框架

CodeTracer: Towards Traceable Agent States

→ HuggingFace Papers (27 upvotes) · arXiv

[ ANTHROPIC · 工程实践 · AGENT · 数据 · 研究 ] 04.15

Anthropic 内部 AI 工作转型数据：工程师从写代码变为管理 Agent

How AI Is Transforming Work at Anthropic

→ Anthropic Research Blog

[ 开源 · LLM · AGENT · MOE · 自我进化 ] 04.13

MiniMax 开源 M2.7：首个"自我进化"的 Agent 模型

MiniMax Open Sources M2.7: A Self-Evolving Agent Model

→ HuggingFace Models · MarkTechPost · VentureBeat · NVIDIA

[ 论文 · AGENT · 评估 · 基准 · AI安全 ] 04.13

Berkeley RDI：所有主流 Agent 基准都可被利用

Exploiting the Most Prominent AI Agent Benchmarks

→ HN (534 points · 133 comments) · Berkeley RDI Blog

[ AI安全 · 网络安全 · MYTHOS · 开源 · 模型评估 ] 04.13

小模型复现 Mythos 漏洞发现："护城河是系统，不是模型"

Small Models Found the Same Vulnerabilities That Mythos Found

→ HN (1250 points · 329 comments) · AISLE Blog

[ 开源 · VLM · 多模态 · LG · STEM ] 04.13

LG AI Research 发布 EXAONE 4.5：33B 开源 VLM 击败 GPT-5-mini

LG AI Research Releases EXAONE 4.5: 33B Open-Weight VLM Outperforming GPT-5-mini

→ arXiv · HF Papers · PR Newswire · Seoul Economic Daily

[ 论文 · 3D检测 · 数据集 · 多模态 ] 04.13

WildDet3D：100 万图像 × 13,500 类别的野外 3D 检测

WildDet3D: Scaling Promptable 3D Detection in the Wild

→ arXiv · HF Papers (88 upvotes)

[ 论文 · 评测 · VLM · 制造业 · 工业AI ] 04.13

FORGE：面向制造业的多模态细粒度评测基准

FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

→ arXiv · HF Papers (67 upvotes)

[ 论文 · 图像生成 · 扩散模型 · 可控生成 ] 04.13

RefineAnything：多模态区域级精细化生成

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

→ arXiv · HF Papers (31 upvotes)

[ 开源 · AGENT · 强化学习 · 工具链 ] 04.13

Microsoft Agent-Lightning：无代码改动为 Agent 添加强化学习

Microsoft Agent-Lightning: Adding RL to AI Agents Without Code Rewrites

→ GitHub Trending · Microsoft Research

[ 开源 · AGENT · NOUSRESEARCH ] 04.13

🔄 NousResearch hermes-agent 持续爆发：三天涨 24,000 星

hermes-agent Continues Explosive Growth: +24K Stars in 3 Days

→ GitHub Trending

[ MISTRAL · 欧洲 · AI战略 · 政策 ] 04.13

Mistral 发布欧洲 AI 主权战略白皮书

Mistral AI Releases European AI Sovereignty Playbook

→ HN (185 points · 112 comments) · Mistral AI

[ 论文 · AGENT · 多模态 · 工具使用 · RLHF ] 04.11

Act Wisely：多模态 Agent 的元认知工具使用

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

→ arXiv · HF Papers

[ 论文 · 3D重建 · TESTTIMETRAINING · 空间智能 ] 04.11

Scal3R：可扩展 Test-Time Training 的大规模 3D 重建

Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

→ arXiv

[ 论文 · 多模态 · GRPO · 训练方法 ] 04.11

OpenVLThinkerV2：Gaussian GRPO 训练多模态推理

OpenVLThinkerV2: Generalist Multimodal Reasoning via Gaussian GRPO

→ arXiv

[ 论文 · MOE · VLM · 诊断 ] 04.11

Seeing but Not Thinking：多模态 MoE 的路由分离现象

Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

→ arXiv

[ 论文 · 具身智能 · SIM2REAL · 数据生成 ] 04.11

SIM1：可变形物体操作的物理对齐零样本数据放大

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

→ arXiv · HF Papers

[ 论文 · 视频生成 · 扩散模型 · 可控生成 ] 04.11

NUMINA：文本到视频扩散模型的数字-对象对齐

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

→ arXiv

[ 量化 · 推理优化 · NVFP4 · GEMMA4 ] 04.11

NVIDIA 发布 Gemma-4-31B-IT NVFP4 量化版

NVIDIA Releases Gemma-4-31B-IT in NVFP4 Format

→ HuggingFace Models

[ 开源 · RAG · 工具链 · 文档处理 ] 04.11

microsoft/markitdown 冲破 100K 星：文档转 Markdown 工具成 RAG 生态事实标准

Microsoft markitdown Crosses 100K Stars as RAG Preprocessing Standard

→ GitHub Trending

[ 开源 · AGENT · 科研 · 技能库 ] 04.11

K-Dense-AI scientific-agent-skills：科研 Agent 的可复用能力库

K-Dense-AI scientific-agent-skills: Prebuilt Agent Capabilities for Research

→ GitHub Trending

[ GOOGLE · GEMINI · 多模态 · 可视化 ] 04.11

Google Gemini 交互式 3D 可视化输出

Google Gemini Adds Interactive 3D Model Visualizations in Chat

→ Research Blog Signals

[ ANTHROPIC · 芯片 · 产品 · 基础设施 ] 04.10

Anthropic 自研芯片 + Anthropic Labs：从模型公司到系统公司

Anthropic Explores Custom AI Chips, Launches Anthropic Labs

→ Reuters · Seoul Economic Daily · Anthropic Blog

[ ANTHROPIC · AGENT · 产品 · 企业AI ] 04.10

Anthropic Claude Managed Agents 公测：$0.08/小时的 Agent 云托管

Anthropic Launches Claude Managed Agents Public Beta

→ 9to5Mac · SiliconAngle · The Register · The New Stack · Anthropic Engineering Blog

[ GITHUB · 开源 · AGENT · NOUSRESEARCH ] 04.10

NousResearch hermes-agent 单日 +7,674 星爆红 GitHub

NousResearch hermes-agent Explodes on GitHub With +7,674 Stars/Day

→ GitHub Trending

[ 开源 · LLM · 推理 · ARCEE ] 04.10

Arcee Trinity Large Thinking：400B 开源推理模型，26 人团队的野心

Arcee AI Releases Trinity Large Thinking, 400B Open-Weight Reasoning Model

→ TechCrunch

[ 论文 · AI伦理 · 广告 · LLM ] 04.10

AI 聊天机器人中的广告偏见：LLM 推荐赞助商品贵 2 倍

Ads in AI Chatbots: LLMs Recommend Sponsored Products at 2x the Price

→ arXiv

[ 论文 · AGENT · 基准 · 评估 ] 04.10

ClawBench：Claude Sonnet 4.6 仅完成 33.3% 的日常在线任务

ClawBench: Claude Sonnet 4.6 Completes Just 33.3% of Everyday Online Tasks

→ arXiv

[ 论文 · AGENT · 开源 · WEB ] 04.10

MolmoWeb：Allen Institute 开源视觉 Web Agent 达到 SOTA

MolmoWeb: Open Visual Web Agent Achieves SOTA on Browser Benchmarks

→ arXiv

[ AI基础设施 · 政策 · 数据中心 ] 04.10

Maine 即将成为首个禁止大型数据中心的州

Maine Set to Become First US State to Ban Major New Data Centers

→ Hacker News (288 分 · 408 评论)

[ OPENAI · AI治理 · 政策 · 法律 ] 04.10

OpenAI 支持限制 AI 导致大规模死亡的责任法案

OpenAI Backs Bill Limiting Liability for AI-Enabled Mass Deaths

→ Wired · Hacker News (128 分 · 71 评论)

[ 论文 · AGENT · 多模态 · 效率 ] 04.10

Metis：Agentic 多模态模型的"元认知缺陷"

Metis: Identifying Meta-Cognitive Deficits in Agentic Multimodal Models

→ arXiv

[ ANTHROPIC · 可靠性 · HN ] 04.10

Claude "搞混谁说了什么"引发社区热议

Claude Mixes Up Who Said What — 441 Points on HN

→ Hacker News (441 分 · 337 评论)

[ 行业动态 · AI编码 · APPLE · 开发者 ] 04.10

App Store 新应用激增 84%：AI 编码工具推动

App Store Sees 84% Surge in New Apps as AI Coding Tools Take Off

→ 9to5Mac · Hacker News (65 分 · 74 评论)

[ ANTHROPIC · AGENT · 研究 · 数据 ] 04.10

Anthropic Agent 自主性测量：极端使用时长翻倍

Anthropic Research: Measuring Agent Autonomy — 99.9th Percentile Session Duration Doubled

→ Anthropic Research

[ PRODUCTHUNT · AGENT · 基础设施 ] 04.10

Product Hunt 4/9：Agent 基础设施三件套——Offsite、Grass、AgentMail

Product Hunt April 9: Agent Infrastructure Triple — Offsite, Grass, AgentMail

→ Product Hunt

[ 论文 · 可解释性 · 对齐 · LLM ] 04.10

Representation Steering Mechanics：Steering Vectors 可稀疏化 90-99%

Steering Vectors Can Be Sparsified 90-99% While Retaining Performance

→ arXiv

[ 社会影响 · 行业动态 · 舆论 ] 04.10

年轻人对 AI 日益绝望和愤怒

Study: Young Adults Grown Less Hopeful and More Angry About AI

→ New York Times · Hacker News (128 分 · 175 评论)

[ GOOGLE · AI安全 · 水印 · 研究 ] 04.10

逆向工程 Gemini SynthID 检测

Reverse Engineering Gemini's SynthID Detection

→ Hacker News (165 分 · 52 评论)

[ META · LLM · 多模态 · 闭源 · ZUCKERBERG ] 04.09

Meta Muse Spark：Superintelligence Labs 首秀，Meta 告别开源

Meta Launches Muse Spark, First Closed Proprietary Model from Meta Superintelligence Labs

→ Meta AI Blog · Fortune · CNBC · Constellation Research · Simon Willison · gHacks · CGTN · Artificial Analysis

[ 行业动态 · AI采纳 · 企业AI · 劳动力 ] 04.09

白领全面反抗 AI：80% 拒绝，54% 绕过公司部署

White-Collar Workers Rebel Against AI: 80% Refuse Adoption Mandates

→ Fortune

[ HUGGINGFACE · 开源 · 越狱 · 蒸馏 ] 04.09

HuggingFace 趋势榜：Gemma 4 越狱版与 Opus 蒸馏版同框

HuggingFace Trending Shifts: Gemma 4 Uncensored + Opus-Distilled Versions Climb

→ HuggingFace

[ 论文 · 3D · TESTTIMETRAINING · 空间智能 ] 04.09

Fast Spatial Memory：弹性 Test-Time Training 稳定长序列 3D 重建

Fast Spatial Memory with Elastic Test-Time Training

→ arXiv

[ 论文 · AGENT · 强化学习 · 移动设备 ] 04.09

Android Coach：同状态多动作 RL 提升 Agent 训练效率

Android Coach: Single State Multiple Actions for Online Agentic Training

→ arXiv

[ 论文 · 空间智能 · 数据集 · 开源 ] 04.09

OpenSpatial：300 万样本空间推理数据引擎

OpenSpatial: A Principled Data Engine for Spatial Intelligence

→ arXiv

[ 论文 · RLHF · 个性化 · 评估 ] 04.09

Personalized RewardBench：为个性化奖励模型定标

Personalized RewardBench: Evaluating Reward Models with Human-Aligned Personalization

→ arXiv

[ 论文 · AI基础设施 · 能耗 · 数据中心 ] 04.09

Generative AI 工作负载的全设施功耗画像

Measurement of Generative AI Workload Power Profiles

→ arXiv (NREL)

[ IBM · AGENT · 持续学习 · 开源 ] 04.09

IBM ALTK-Evolve：Agent 的"在岗学习"

IBM ALTK-Evolve: On-the-Job Learning for AI Agents

→ HuggingFace Blog (IBM Research)

[ PERPLEXITY · 开发者 · 资金 ] 04.09

Perplexity 10 亿美元 Build Challenge：无股权的开发者奖金

Perplexity Launches $1B Build Challenge With No Investment Terms

→ Perplexity (原始页面 403) · HN

[ GOOGLE · 视频生成 · 深度伪造 · 产品 ] 04.09

Google YouTube Shorts 让你 deepfake 自己

Google Makes It Easy to Deepfake Yourself on YouTube Shorts

→ The Verge

[ PRODUCTHUNT · AI工具 · AGENT ] 04.09

Product Hunt 4/8：Velo 以 AI 视频剪辑登顶，5/10 为 AI 产品

Velo Tops Product Hunt With AI Video Editing

→ Product Hunt

[ GITHUB · 开源 · 语音识别 ] 04.09

GitHub Trending：FunASR 与 Transformers 稳居前列

GitHub Trending: FunASR + Transformers Lead

→ GitHub Trending

[ 开源 · LLM · AGENT · 智谱 · SWEBENCH ] 04.08

智谱 GLM-5.1：754B 开源击败 Claude Opus 4.6 的 Agentic 模型

Z.AI Releases GLM-5.1, Open-Weight 754B Agentic Model Topping SWE-Bench Pro

→ VentureBeat · MarkTechPost · Dataconomy · Analytics India Magazine · Pandaily · HuggingFace

[ ANTHROPIC · MYTHOS · AI安全 · 网络安全 · AI治理 ] 04.08

🔄 Anthropic Project Glasswing：Mythos 首度亮相与前所未有的防御联盟

Anthropic Launches Project Glasswing With Claude Mythos Preview for Cybersecurity

→ Fortune · TechCrunch · SiliconAngle · CrowdStrike Blog · Simon Willison · Neowin

[ ANTHROPIC · 营收 · TPU · 基础设施 ] 04.08

Anthropic 年化收入 300 亿美元，签订 3.5 GW TPU 扩展协议

Anthropic Hits $30B Run Rate, Signs 3.5 GW TPU Deal With Google/Broadcom

→ CNBC · Bloomberg · TechCrunch · TNW · Seeking Alpha

[ 论文 · AGENT · 评估 · AI安全 ] 04.08

Claw-Eval：可信 Agent 评估的新基准

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

→ arXiv

[ 论文 · 强化学习 · RLHF ] 04.08

Target Policy Optimization：在稀疏奖励场景击败 PPO

Target Policy Optimization Substantially Outperforms PPO

→ arXiv

[ 论文 · AGENT · COMPUTERUSE · 基准 ] 04.08

Gym-Anything：把任意软件变成 Agent 环境

Gym-Anything: Turn Any Software Into an Agent Environment

→ arXiv

[ 论文 · 架构 · ATTENTION · 长序列 ] 04.08

PoM：线性时间的 Attention 替代方案

PoM: Polynomial Mixer as Linear-Time Attention Replacement

→ arXiv

[ 论文 · LLM · TESTTIMECOMPUTE · 长上下文 ] 04.08

In-Place Test-Time Training：推理时动态调整权重

In-Place Test-Time Training

→ arXiv

[ 论文 · 多模态 · RAG · 嵌入 ] 04.08

MMEmb-R1：融合推理的多模态嵌入

MMEmb-R1: Reasoning-Enhanced Multimodal Embedding

→ arXiv

[ 论文 · VLM · 幻觉 · 可解释性 ] 04.08

HaloProbe：VLM 幻觉的贝叶斯检测

HaloProbe: Bayesian Detection of VLM Hallucinations

→ arXiv

[ HUGGINGFACE · 开源 · TTS ] 04.08

GLM-5.1 HuggingFace 同步上架与 OpenBMB VoxCPM2

GLM-5.1 on HuggingFace & OpenBMB VoxCPM2 TTS Release

→ HuggingFace

[ PRODUCTHUNT · 语音AI · AGENT · MAC ] 04.08

NovaVoice 登顶 Product Hunt 4/7：AI 语音助手的桌面化

NovaVoice Tops Product Hunt With 547 Votes

→ Product Hunt

[ ANTHROPIC · 运维 · 基础设施 ] 04.08

Anthropic Claude 4 月 6-7 日全球性服务中断

Anthropic Claude Global Outage on April 6-7

→ Status 报告 · 多方社区讨论

[ OPENAI · ANTHROPIC · GOOGLE · 地缘政治 · AI治理 ] 04.07

OpenAI、Anthropic、Google 联手反制中国模型蒸馏

OpenAI, Anthropic, Google Unite to Combat Chinese Model Distillation

→ Bloomberg · Frontier Model Forum

[ ANTHROPIC · 并购 · 生物科技 · 药物发现 ] 04.07

Anthropic 4 亿美元收购 Coefficient Bio 进军药物发现

Anthropic Acquires Coefficient Bio for $400M

→ TechCrunch · The Information · BioSpace · Fierce Biotech

[ GOOGLE · 推理效率 · 量化 · 论文 ] 04.07

Google TurboQuant：KV Cache 6 倍压缩、零精度损失

Google TurboQuant: 6x KV Cache Compression With Zero Accuracy Loss

→ Google Research Blog · VentureBeat · TechCrunch · HPCwire

[ DEEPSEEK · 华为 · 开源 · 地缘政治 ] 04.07

🔄 DeepSeek V4 开启内测，确认原生运行华为昇腾 950PR

DeepSeek V4-Lite in API Testing, Runs on Huawei Ascend 950PR

→ Reuters · Tech Startups · 36Kr

[ OPENAI · 政策 · AI与就业 · UBI ] 04.07

OpenAI 政策白皮书：四天工作周与税制改革

OpenAI Proposes Four-Day Workweek and Tax Overhaul

→ OpenAI · 政策文件报道

[ NVIDIA · 机器人 · 多模态 · VLM ] 04.07

NVIDIA Cosmos Reason 2：物理 AI 专用推理 VLM

NVIDIA Cosmos Reason 2: Reasoning VLM for Physical AI

→ HuggingFace · NVIDIA

[ 开源 · 推理 · 混合架构 · TII ] 04.07

Falcon-H1R-7B：混合架构测试时缩放推理模型

Falcon-H1R-7B: Hybrid Model for Test-Time Scaling

→ HuggingFace · TII

[ 论文 · 推理效率 · KV压缩 ] 04.07

TriAttention：三角函数 KV 压缩实现 2.5 倍吞吐

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

→ arXiv

[ 论文 · 视觉推理 · 强化学习 · 开源 ] 04.07

Vero：通用视觉推理的开源 RL 配方

Vero: An Open RL Recipe for General Visual Reasoning

→ arXiv

[ 论文 · 定理证明 · 数学推理 · 小模型 ] 04.07

QED-Nano：4B 小模型证明奥数级定理

QED-Nano: Teaching a Tiny Model to Prove Hard Theorems

→ arXiv (LM-Provers)

[ 论文 · 推理效率 · LLM ] 04.07

CoDE-Stop：基于置信动态的推理早停

Early Stopping for Large Reasoning Models via Confidence Dynamics

→ arXiv

[ 论文 · 可解释性 · AI安全 ] 04.07

隐藏推理模型的可解释性研究

Are Latent Reasoning Models Easily Interpretable?

→ arXiv

[ 论文 · AI经济学 · 社会影响 ] 04.07

Acemoglu 论文：AI 聚合如何影响集体知识

How AI Aggregation Affects Knowledge

→ arXiv

[ 企业AI · 医疗 · 行业动态 ] 04.07

UnitedHealth 30 亿美元押注 AI 自动化

UnitedHealth Group $3B AI Push

→ STAT News

[ 阿里巴巴 · AI应用 · 电商 · AGENT ] 04.07

阿里巴巴 Accio 突破 1000 万月活

Alibaba Accio AI Sourcing Tool Hits 10M MAU

→ MIT Technology Review

[ GOOGLE · 开源 · LLM · 多模态 ] 04.05

Google Gemma 4 开源模型家族发布

Google Releases Gemma 4 Open Model Family

→ Google Blog · Engadget · The Register · Google DeepMind · Interconnects · Android Developers Blog · 新华社

[ AI安全 · 网络安全 · 研究 ] 04.05

AI 攻击性网络能力每约 6 个月翻倍

AI Offensive Cyber Capabilities Doubling Every ~6 Months

→ The Decoder · International AI Safety Report 2026 · Gnoppix Forum

[ DEEPSEEK · 开源 · LLM · 多模态 ] 04.05

DeepSeek V4 即将发布：万亿参数开源 MoE

DeepSeek V4 Imminent: 1T-Parameter Open-Source MoE

→ NxCode · 36Kr · Mule AI Blog · Evolink AI · Renovateqr

[ 行业动态 · 就业 · 开发者 ] 04.05

美国软件工程岗位三年新高，2026 年增长 30%

US Software Engineering Jobs Hit 3-Year High, Up 30% in 2026

→ TrueUp · Techmeme · Business Insider

[ NETFLIX · 计算机视觉 · 开源 · 视频编辑 ] 04.05

Netflix 开源 VOID 视频物体移除模型

Netflix Open-Sources VOID Video Object Removal Model

→ HuggingFace · arXiv

[ 腾讯 · 视频生成 · 开源 · HUGGINGFACE ] 04.05

腾讯发布 HY-OmniWeaving 视频生成模型

Tencent Releases HY-OmniWeaving Video Generation Model

→ HuggingFace

[ GOOGLE · 产品 · 视频生成 · AI工具 ] 04.05

Google Vids 2.0：免费 AI 视频创建工具

Google Vids 2.0: Free AI Video Creation Tool

→ Product Hunt

[ 开发工具 · LLM · 产品 ] 04.05

Mercury Edit 2：基于扩散 LLM 的代码编辑预测

Mercury Edit 2: Ultra-Fast Next-Edit Prediction via Diffusion LLM

→ Product Hunt

[ LLM · 产品 · AI工具 ] 04.05

OpenRouter Model Fusion：多模型融合最优响应

OpenRouter Model Fusion: Multi-Model Response Fusion

→ Product Hunt

[ COHERE · 语音AI · 开源 · HUGGINGFACE ] 04.05

Cohere Transcribe：多语言语音识别模型

Cohere Transcribe: Multilingual Speech Recognition

→ HuggingFace

[ 百度 · 计算机视觉 · 文档AI · HUGGINGFACE ] 04.05

百度千帆 OCR 视觉语言模型

Baidu Qianfan-OCR Vision-Language Model

→ HuggingFace

[ 行业动态 · 产品趋势 ] 04.05

AI Chatbot 流量增速是社交媒体的 7 倍

AI Chatbot Traffic Growing 7x Faster Than Social Media

→ The Decoder

[ 阿里巴巴 · LLM · 推理 · 训练方法 ] 04.05

阿里巴巴 Qwen 新推理强化学习算法

Alibaba Qwen New Reasoning Reinforcement Learning Algorithm

→ The Decoder

[ 论文 · LLM · 推理 · 效率 ] 04.05

批量上下文强化学习：推理 Token 效率新范式

Batched Contextual Reinforcement: Task-Scaling Law for Efficient Reasoning

→ arXiv

[ 开源 · AGENT · 开发工具 ] 04.05

AutoAgent：自动化 Prompt 优化和 Agent 调优开源库

AutoAgent: Automated Prompt Optimization & Agent Tuning Library

→ Planet AI

[ 行业动态 · 开发者 · AI质量 ] 04.05

开发者对 "AI Slop" 的不满：定性研究

Developer Frustration Over "AI Slop": Qualitative Study

→ The Decoder

[ META · 3D · 计算机视觉 · 论文 ] 04.05

Meta 大规模 Codec Avatars：百万视频训练 3D 头像

Large-scale Codec Avatars: Avatar Pretraining on 1M Videos

→ arXiv

[ LLM · 阿里巴巴 · AGENT · 产品 ] 04.02

阿里巴巴发布 Qwen3.6-Plus

Alibaba Unveils Qwen3.6-Plus for Agentic AI

→ Bloomberg · Seeking Alpha · TechBriefly · TradingView

[ 微软 · 语音AI · 图像生成 · 产品 ] 04.02

微软发布三款自研 MAI 模型

Microsoft Launches MAI-Voice-1, MAI-Transcribe-1, MAI-Image-2

→ VentureBeat · Windows Central · Decrypt · Microsoft AI Blog

[ GOOGLE · 视频生成 · 多模态 · 产品 ] 04.02

Google 发布 Veo 3.1 Lite 视频生成模型

Google Releases Veo 3.1 Lite Video Generation Model

→ Google Blog · 9to5Google · MarkTechPost · Windows Report · Android Authority

[ 开源 · AGENT · COMPUTER · HUGGINGFACE ] 04.02

H Company 开源 Holo3-35B-A3B Computer Use 模型

H Company Open-Sources Holo3 SOTA Computer Use Model

→ HuggingFace · H Company Blog · TestingCatalog · NeuraBooks

[ 开源 · 本地AI · APPLE · 开发工具 ] 04.02

🔄 Ollama v0.19：Apple MLX 集成与 Web 能力

Ollama v0.19: MLX Framework, Web Search & VS Code Integration

→ GitHub · MacRumors · Product Hunt

[ OPENAI · AGI · 行业动态 ] 04.02

OpenAI 联合创始人称 GPT 推理模型"看到了 AGI 的路径"

OpenAI Co-Founder: GPT Reasoning Models Have "Line of Sight" to AGI

→ The Decoder · llm-stats.com

[ 论文 · LLM · 推理 · AI安全 ] 04.02

"Therefore I am. I Think"：LLM 是先决策还是先推理？

Therefore I am. I Think — Do LLMs Decide Before They Reason?

→ arXiv

[ 论文 · 代码生成 · LLM · 训练方法 ] 04.02

极简自蒸馏提升代码生成

Embarrassingly Simple Self-Distillation Improves Code Generation

→ arXiv

[ 论文 · LLM · 推理 · 效率 ] 04.02

ORCA：推理校准降低 Test-Time 计算成本

ORCA: Online Reasoning Calibration via Conformal Prediction

→ arXiv

[ 产品 · 语音AI · 创意工具 ] 04.02

Noiz Easter Voice：设计有表现力的人声

Noiz Easter Voice: Design Expressive Voices

→ Product Hunt

[ 产品 · AGENT · 可观测性 ] 04.02

traceAI：AI 应用评估和可观测平台

traceAI: Evaluation, Observability & Optimization for AI Apps

→ Product Hunt

[ 论文 · AGENT · 科学发现 ] 04.02

CliffSearch：LLM Agent 驱动的科学算法发现

CliffSearch: Structured Agentic Co-Evolution for Algorithm Discovery

→ arXiv

[ META · 计算机视觉 · 开源 · HUGGINGFACE ] 04.02

facebook/sam3.1：SAM3 视频分割模型

Meta SAM 3.1 Video Segmentation

→ HuggingFace

[ 行业动态 · AI应用 · 医疗 ] 04.02

Medvi：两人公司用 AI 实现 $4.01 亿营收

Medvi: $401M Revenue with AI-Driven Telehealth, Just 2 Employees

→ New York Times · llm-stats.com

[ 论文 · AGENT · 评估基准 ] 04.02

HippoCamp 和 YC-Bench：Agent 能力评估新基准

HippoCamp & YC-Bench: New Agent Benchmarks

→ arXiv

[ AI安全 · ANTHROPIC · LLM ] 04.01

Anthropic "Mythos" 模型因数据泄露意外曝光

Anthropic "Mythos" Model Leaked via Unsecured Data Store

→ Fortune (独家) · CoinDesk · CSO Online · Euronews · Futurism

[ AI安全 · ANTHROPIC · 开发工具 ] 04.01

Anthropic Claude Code 源码经 npm 泄露

Claude Code Source Code Leaked via npm Source Map

→ The Register · VentureBeat · Fortune · Axios · CNBC · CyberSecurityNews

[ LLM · 开源 · 多模态 · 阿里巴巴 ] 04.01

Qwen3.5-Omni 全模态模型发布

Qwen3.5-Omni Native Omni-Modal Model Release

→ MarkTechPost · Analytics Vidhya · The Decoder · The Information · Product Hunt

[ OPENAI · 行业动态 · 融资 ] 04.01

🔄 OpenAI 完成 $1220 亿融资，估值达 $8520 亿

OpenAI Closes $122B Round at $852B Valuation

→ CNBC · Bloomberg · OpenAI Blog · TechCrunch

[ OPENAI · LLM · 产品 ] 04.01

GPT-5.4 Mini 和 Nano 发布

GPT-5.4 Mini and Nano Release

→ OpenAI Blog · 9to5Mac · 9to5Google · Simon Willison · The New Stack

[ OPENAI · 收购 · 开发工具 · 开源 ] 04.01

OpenAI 收购 Astral

OpenAI Acquires Astral — Ruff, uv, ty

→ OpenAI Blog · Astral Blog · CNBC · Bloomberg · Simon Willison · JetBrains Blog

[ AGENT · ANTHROPIC · 开发工具 ] 04.01

🔄 Claude Computer Use 扩展至 Claude Code CLI

Claude Computer Use Expands to Claude Code CLI

→ Product Hunt · The Tech Outlook · Claude Code Changelog

[ AI安全 · OPENAI · AGENT ] 04.01

OpenAI 公开内部编码 Agent 不对齐监控系统

OpenAI Publishes Internal Coding Agent Misalignment Monitoring Report

→ OpenAI Blog · LessWrong · Security Brief

[ ANTHROPIC · 行业动态 · AI安全 ] 04.01

Anthropic 投资 $1 亿建立 Claude Partner Network 并成立 Anthropic Institute

Claude Partner Network & Anthropic Institute Launch

→ Anthropic Blog

[ OPENAI · 产品 · AGENT · 电商 ] 04.01

OpenAI ChatGPT 购物 + Agentic Commerce Protocol

ChatGPT Shopping & Agentic Commerce Protocol

→ OpenAI Blog · Releasebot

[ 政策 · ANTHROPIC · AI安全 ] 04.01

Anthropic 与澳大利亚签署 AI 安全合作协议

Anthropic Signs AI Safety Deal with Australia

→ US News · Reuters

[ 论文 · LLM · 神经科学 ] 04.01

LLM 自发涌现类脑功能分化

Spontaneous Functional Differentiation in Large Language Models

→ arXiv

[ 论文 · LLM · MOE ] 04.01

无需训练的专家语言模型动态混合

Training-Free Dynamic Upcycling of Expert Language Models — DUME

→ arXiv

[ 开源 · 开发工具 · LLM ] 04.01

zed-industries/zeta-2 代码编辑预测模型

zed-industries/zeta-2 Next-Edit Prediction Model

→ HuggingFace

[ 产品 · AGENT · 金融 ] 04.01

Jupid：用 Claude Code 报税

Jupid: File Your Taxes with Claude Code

→ Product Hunt

[ 开源 · LLM · 边缘计算 ] 04.01

LiquidAI LFM2.5-350M 边缘部署模型

LiquidAI LFM2.5-350M Edge Model

→ HuggingFace

◉ 2026.03 ◉

[ OPENAI · AGENT · 开发工具 · MCP ] 03.28

OpenAI Codex Plugins 平台正式发布

OpenAI Codex Plugins Launch

→ OpenAI Blog · SiliconANGLE · Neowin · The New Stack · Windows Report

[ GOOGLE · 语音AI · 产品 · AGENT ] 03.28

Gemini 3.1 Flash Live 实时音频模型发布

Gemini 3.1 Flash Live

→ Google Blog · MarkTechPost · SiliconANGLE · 9to5Google · Android Central

[ 音乐AI · 产品 · 创意工具 ] 03.28

Suno v5.5 发布：声音克隆与个性化 AI 音乐

Suno v5.5: Voices, Custom Models & My Taste

→ Suno Blog · Digital Music News · Metaverse Post · Music Ally · Product Hunt

[ AI安全 · 网络安全 · ANTHROPIC ] 03.28

Claude Opus 4.6 与 Mozilla 合作：14 天发现 22 个 Firefox 漏洞

Claude Opus 4.6 Discovers 22 Firefox Vulnerabilities

→ Anthropic Red Team Blog · TechCrunch · The Hacker News · InfoQ · Axios · SC Media

[ ANTHROPIC · 研究 · 行业数据 ] 03.28

Anthropic 经济指数报告：Claude 使用模式深度分析

Anthropic Economic Index: Learning Curves

→ Anthropic Research

[ ANTHROPIC · 产品 · AGENT ] 03.28

Claude Tasks Mode 即将推出：五大任务起点

Claude Tasks Mode with 5 Starting Points

→ TestingCatalog · X (Twitter)

[ ANTHROPIC · 开发工具 · AGENT ] 03.28

Claude Code auto-fix：自动修复 CI 失败和代码审查

Claude Code Auto-Fix for CI and PR Reviews

→ Product Hunt

[ AI安全 · ANTHROPIC · 研究 ] 03.28

Anthropic 对齐研究："The Hot Mess of AI"

The Hot Mess of AI: Misalignment Scaling

→ Anthropic Alignment Blog

[ 开源 · 视频生成 · 多模态 ] 03.28

Lightricks LTX-2.3 开源视频生成模型

Lightricks LTX-2.3 Open-Source Video Generation

→ HuggingFace

[ 开源 · 代码生成 · AGENT ] 03.28

Tesslate OmniCoder-9B：开源代码 Agent 模型

Tesslate OmniCoder-9B

→ HuggingFace

[ 语音AI · COHERE · 开源 ] 03.28

Cohere Transcribe：22 语言语音识别模型

Cohere Transcribe ASR Model

→ HuggingFace · SiliconANGLE

[ AGENT · 开发工具 · 产品 ] 03.28

Agentation：AI Agent 可视化反馈工具

Agentation: Visual Feedback Tool for AI Agents

→ Product Hunt

[ OCR · 百度 · 开源 · 多模态 ] 03.28

百度千帆 OCR 视觉语言模型

Baidu Qianfan-OCR Vision-Language Model

→ HuggingFace

[ AI安全 · OPENAI · AGENT ] 03.27

OpenAI 发布 Safety Bug Bounty 计划

OpenAI Safety Bug Bounty Program

→ OpenAI Blog · Infosecurity Magazine · Help Net Security

[ AI安全 · GOOGLE · 研究 ] 03.27

Google DeepMind 发布 AI 操纵行为实证测量工具包

DeepMind AI Manipulation Measurement Toolkit

→ Google DeepMind Blog

[ LLM · XAI · 产品 ] 03.27

xAI Grok 4.20 正式退出 Beta

Grok 4.20 Exits Beta

→ Artificial Analysis · WinBuzzer · xAI Release Notes

[ AGENT · 基础设施 · MCP ] 03.27

MCP 月下载量突破 9700 万

Model Context Protocol Hits 97M Monthly Downloads

→ Digital Applied · The New Stack · Anthropic Blog

[ 机器人 · GOOGLE · 产业合作 ] 03.27

Agile Robots 与 Google DeepMind 战略合作

Agile Robots Partners with Google DeepMind

→ TechCrunch · CNBC · Agile Robots 官网

[ LLM · GOOGLE · 产品 ] 03.27

Google Gemini 3.1 Pro 发布

Gemini 3.1 Pro Release

→ Google Blog · Google Cloud Documentation

[ 开源 · LLM · 蒸馏 · HUGGINGFACE ] 03.27

Claude Opus 推理能力蒸馏进 Qwen3.5 霸榜 HuggingFace

Claude Opus Reasoning Distilled into Qwen3.5 Dominates HuggingFace

→ HuggingFace

[ 语音 · MISTRAL · 开源 ] 03.27

Mistral 发布 Voxtral-4B 多语言语音合成模型

Mistral Voxtral-4B-TTS

→ HuggingFace

[ 产品 · GOOGLE · 设计工具 ] 03.27

Stitch 2.0 by Google：AI 驱动的 UI 设计工具

Stitch 2.0 by Google

→ Product Hunt

[ ANTHROPIC · 产品 ] 03.27

Claude Import Memory：从 ChatGPT 迁移到 Claude

Claude Import Memory Feature

→ Product Hunt

[ 论文 · RAG · LLM ] 03.27

WriteBack-RAG：将知识库作为可训练组件

WriteBack-RAG: Training the Knowledge Base

→ arXiv

[ 论文 · AGENT · 工程实践 ] 03.27

Natural-Language Agent Harnesses：Agent 工程新范式

Natural-Language Agent Harnesses

→ arXiv

[ 政策 · 教育 · 美国 ] 03.27

NSF 发布 AI-Ready America 计划

NSF TechAccess: AI-Ready America Initiative

→ NSF 官网

[ 产品 · CRM · AGENT ] 03.27

Lightfield：AI 原生自建 CRM

Lightfield AI-Native CRM

→ Product Hunt

[ 开源 · AGENT · 研究基础设施 ] 03.27

OpenCLAW-P2P：去中心化 AI 形式化验证研究网络

OpenCLAW-P2P: Decentralized AI Research with Formal Verification

→ Hacker News · GitHub

[ 开源 · 工具 · LLM ] 03.27

Lightfeed Extractor：LLM 友好的网页结构化提取

Lightfeed Extractor for LLM-Ready Web Scraping

→ Hacker News · GitHub

[ AGENT · ANTHROPIC · 产品 ] 03.25

Claude 桌面端 Computer Use 发布预览

Anthropic Claude Computer Use on Mac

→ Anthropic Blog · TechCrunch · CNBC · MacRumors

[ AGENT · ANTHROPIC · 开发工具 ] 03.25

Claude Code Auto Mode 发布

Claude Code Auto Mode

→ Anthropic Blog · TechCrunch · SiliconANGLE · 9to5Mac

[ GOOGLE · 产品 · AGENT ] 03.25

Google Gemini 全面升级 Workspace AI 能力

Gemini Workspace AI Upgrade

→ Google Blog · TechCrunch · VentureBeat

[ APPLE · GOOGLE · 产品 ] 03.25

Apple Siri AI 升级由 Gemini 驱动，发布遭遇延迟

Apple Siri AI Upgrade Powered by Gemini

→ 9to5Mac · Bloomberg · TechCrunch · AppleInsider

[ OPENAI · ANTHROPIC · 行业动态 ] 03.25

OpenAI 营收突破 $250 亿，酝酿 IPO

OpenAI Revenue Surpasses $25B, Eyes IPO

→ AI News · Crescendo AI

[ OPENAI · LLM · 产品 ] 03.25

🔄 GPT-5.4 全貌：百万上下文与 Computer Use

GPT-5.4 Full Feature Set

→ OpenAI Blog · TechCrunch

[ ANTHROPIC · LLM · 产品 ] 03.25

Anthropic 1M 上下文正式 GA

Anthropic 1M Context Generally Available

→ Anthropic Blog

[ 开源 · RAG · GITHUB ] 03.25

Pathway：LLM 管道与 RAG 的流处理框架

Pathway ETL Framework for LLM Pipelines

→ GitHub Trending

[ 开源 · LLM · 行业动态 ] 03.25

中国开源模型在 HuggingFace 上超越美国

Chinese Open Models Overtake US on HuggingFace

→ HuggingFace Blog · AI News

[ AGENT · AMAZON · 产品 · 医疗AI ] 03.25

Amazon 推出 Health AI Agent

Amazon Health AI Agent for Prime

→ AI News

[ 论文 · 多模态 · 强化学习 ] 03.25

UniGRPO：推理驱动的统一视觉生成

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

→ arXiv

[ 论文 · AGENT · 推理优化 ] 03.25

SpecEyes：Agent 级多模态 LLM 推理加速

SpecEyes: Accelerating Agentic Multimodal LLMs

→ arXiv

[ 论文 · 机器人 · 多模态 ] 03.25

VTAM：融合触觉的视频-动作世界模型

VTAM: Video-Tactile-Action Models

→ arXiv

[ NVIDIA · AGENT · 观点 ] 03.25

NVIDIA CEO 愿景：2036 年每人配 100 个 AI Agent

Jensen Huang: 100 AI Agents Per Person by 2036

→ AI News · GTC 2026

[ ANTHROPIC · 产品 ] 03.25

Claude 新增交互式可视化能力

Claude Interactive Visualizations

→ Anthropic Blog

[ LLM · 大模型 · AGENT · 开源 ] 03.22

小米 MiMo-V2-Pro 万亿参数模型发布

Xiaomi MiMo-V2-Pro 1T Model

→ AI News · X (Twitter)

[ LLM · OPENAI · 产品 ] 03.22

GPT-5.4 Mini 向免费用户开放推理能力

GPT-5.4 Mini Free for All Users

→ AI News · X (Twitter)

[ LLM · 开源 · AGENT · NVIDIA ] 03.22

NVIDIA Nemotron 3 Super 开源最高 SWE-Bench 分数

NVIDIA Nemotron 3 Super

→ AI News · GTC 2026

[ 论文 · LLM · 强化学习 · NVIDIA ] 03.22

Nemotron-Cascade 2: 级联强化学习训练 30B MoE 模型

Nemotron-Cascade 2

→ arXiv

[ 多模态 · GOOGLE · 产品 ] 03.22

Google Gemini Embedding 2 统一多模态 Embedding

Gemini Embedding 2

→ AI News

[ AGENT · 观点 · 研究 ] 03.22

Andrej Karpathy：AI Agent 已能自主优化训练流程

Karpathy on AI Research Bottlenecks

→ AI News (The Decoder)

[ LLM · GOOGLE · 产品 ] 03.22

Gemini 3.1 Flash-Lite 效率模型发布

Gemini 3.1 Flash-Lite

→ AI News

[ 硬件 · 基础设施 · AWS ] 03.22

Amazon Trainium 芯片实验室曝光

AWS Trainium Chip Lab

→ AI News (TechCrunch)

[ OPENAI · 行业动态 ] 03.22

OpenAI 计划年底前翻倍至 8000 人

OpenAI Workforce Expansion

→ AI News (The Decoder)

[ 开源 · AGENT · GITHUB ] 03.22

LangChain 本周获 1151 Star，Agent 工程平台热度持续

LangChain Trending

→ GitHub Trending

[ 论文 · EMBEDDING · 多语言 ] 03.22

F2LLM-v2：支持 200+ 语言的多语言 Embedding 模型

F2LLM-v2 Multilingual Embeddings

→ arXiv

[ 开源 · AGENT · 工具 ] 03.22

Rowboat：开源多 Agent 系统 IDE

Rowboat Open-Source Multi-Agent IDE

→ Hacker News

[ 机器人 · NVIDIA · 产品 ] 03.22

NVIDIA GR00T N1.7 人形机器人基础模型

NVIDIA GR00T N1.7

→ AI News · GTC 2026

[ 医疗AI · 多模态 · MICROSOFT ] 03.22

Microsoft GigaTIME 癌症病理多模态模型

Microsoft GigaTIME

→ AI News

[ ANTHROPIC · 行业动态 · AI安全 ] 03.22

Anthropic 成立 Anthropic Institute 研究 AI 社会影响

Anthropic Institute

→ AI News

[ 本地AI · APPLE · 开源 ] 03.22

Apple MLX 团队 2026 年重大更新，Local AI 年

MLX 2026 Release

→ X (Twitter)