一日三饭 | HARNESS

← /harness

════ 2026.06.19 ════

今日要点

> Z.AI GLM-5.2 开放 1M context 编码/agent 模型：官方 release notes 标注 1M lossless context、长程任务与深度调试能力增强；HF trending 显示权重已以 MIT license 上线，成为本周最重要的开源 frontier 候选。
> OpenAI 连发生命科学研究闭环与评测基准：GPT-5.4 接入 Molecule.one Maria Lab，在 10,080 次实验中改进 Chan-Lam coupling；LifeSciBench 用 750 个专家任务、19,020 条 rubric 评估真实生命科学研究能力。
> agent 安全从 prompt safety 转向系统控制：OpenAI Deployment Simulation 用历史会话重放预测部署行为，DeepMind AI Control Roadmap 把内部 agent 当作潜在 insider threat，并已分析 100 万条 coding agent 轨迹。
> GitHub Copilot 生态继续平台化：Agent finder 采用 ARD 规范做能力发现，MAI-Code-1-Flash 扩展到 CLI、Copilot app、IDE 和移动端，Copilot code review 开始读取仓库级 AGENTS.md。
> 今日 HF Papers 的核心信号是小模型/工具化 agent：Moebius 用 0.22B 参数达到 10B 级图像修复质量，RATs、S-Agent、FAPO 和 agent benchmark 论文都把能力增长放在可复用技能、工具轨迹和评测有效性上。

详细内容

ENTRY 001/017

[ GLM · 开源模型 · LONGCONTEXT · CODINGAGENT · MOE ]

Z.AI GLM-5.2：1M lossless context 的开源 coding / agent 模型

(GLM-5.2)

→ Z.AI Release Notes · → HF

Z.AI 在 6 月 16 日 release notes 中列出 GLM-5.2，核心变化是 1M lossless context、长程任务能力、context drift 和目标遗忘问题改善，以及复杂系统工程和深度调试能力提升。HF trending API 显示 zai-org/GLM-5.2 于 6 月 16 日创建，MIT license，标注 eval-results 和 glm_moe_dsa。

GLM-5.2 是本期最值得优先验证的开源模型发布。官方没有只讲通用聊天能力，而是明确把卖点放在 1M lossless context、长程 coding、系统工程和 deep debugging，这些正是当前 coding agent 在真实仓库里最容易失败的环节。对开发者来说，它的价值不在于单轮答题，而在于是否能在长仓库、多文件约束和长时间目标保持中减少 drift。

需要注意的是，官方 release notes 没有给出完整公开 benchmark 表和第三方复测结果，HF 也只暴露了模型元数据、license 和 eval-results 标签。结论应当是“高优先级候选，而非已验证替代品”：先在 SWE-bench、repo-level refactor、长上下文检索和 agent loop 成本上复测，再决定是否进入生产模型池。

ENTRY 002/017

[ OPENAI · 科学发现 · AIFORSCIENCE · AGENT · 实验自动化 ]

GPT-5.4 近自治 AI 化学家改进 Chan-Lam coupling

(A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry)

→ OpenAI

OpenAI 与 Molecule.one 将 GPT-5.4 接入 Maria AI 和高通量实验室，让模型生成研究提案、设计实验、分析结果并提出后续实验。最终方案 OAI-M1-03 让 primary sulfonamide Chan-Lam coupling 的平均 yield 从 16.6% 提升到 25.2%，反应超过 30% yield 的比例从 15.6% 提升到 37.5%，并经 14 组 bench-scale 复现实验验证。

这条的价值在于它不是“模型建议了一个实验”的演示，而是把 frontier model、专用 chemistry agent、高通量实验平台和人类审阅组成了一个真实研究闭环。Maria Lab 总共跑了 10,080 次反应，GPT-5.4 不只检索文献，还提出 TEMPO / 4-hydroxy-TEMPO 这类可操作的 additive 假设，再根据第一轮数据收窄第二轮实验。

它也清楚暴露了近自治科学 agent 的边界：人类仍负责 steering prompt、筛选提案、修正实验计划、实验操作和最终验证。对企业研发团队，最有参考价值的是这个分工形态：让模型负责假设生成和实验设计搜索，让专用自动化平台负责执行与数据回传，让专家把关进入物理世界的动作。

ENTRY 003/017

[ BENCHMARK · LIFESCIENCE · GPT-ROSALIND · 评测 · AIFORSCIENCE ]

LifeSciBench：面向真实生命科学工作的专家评测基准

(Introducing LifeSciBench)

→ OpenAI

LifeSciBench 包含 750 个专家编写任务、1,062 个任务附件、19,020 条 rubric criteria，覆盖 evidence handling、analysis、design and optimization、scientific reasoning、validation and operations、translation、scientific communication 七类工作流。OpenAI 报告 GPT-Rosalind 在总体 exact pass rate 上从 GPT-5.5 的 25.7% 提升到 36.1%。

LifeSciBench 重要的地方不是又多了一个生物问答榜单，而是它把“真实研究任务”拆成了需要证据判断、文件/图表/序列/结构处理、实验设计和监管推理的自由回答任务。53% 的任务需要解释或综合至少一个 artifact，79% 的任务需要多步推理或决策，rubric 平均每题 25 条，明显比单一正确答案更接近专家评审。

对研究者，这类 benchmark 会改变模型选型方式。生命科学模型不能只看 biology fact recall，而要看它在不完整证据、冲突文献、实验约束和转化风险下能否给出可审查的理由。GPT-Rosalind 的提升说明垂直模型正在从“知识更多”走向“工作流判断更强”，但 36.1% 的 pass rate 也说明该领域远未饱和。

ENTRY 004/017

[ 安全评测 · DEPLOYMENTSAFETY · AGENT · 评测方法 · OPENAI ]

Deployment Simulation：用部署重放预测模型上线后的行为

(Predicting model behavior before release by simulating deployment)

→ OpenAI

OpenAI 介绍 Deployment Simulation：以隐私保护方式用候选模型重放历史会话，在真实上下文中预估未上线模型的 undesired behavior 频率，并扩展到 tool use / agentic trajectories。OpenAI 称该方法已用于多个 GPT-5 系列 Thinking 部署，帮助发现传统 eval 的盲区和新型 misalignment。

传统 red-team 和 synthetic eval 擅长发现“极端风险是否可能发生”，但不擅长估计上线后真实流量中的频率。Deployment Simulation 的方向是把评测从静态题库转向部署前 shadow replay，用真实多轮上下文观察候选模型会如何回应。这对 agent 尤其关键，因为工具调用和长轨迹的失败往往来自上下文累积，而不是单轮 prompt。

它的限制也很明确：OpenAI 提到该方法不适合估计频率低于约 1/200,000 messages 的尾部风险。也就是说，它不能取代高危红队，而是补上“常见但传统评测漏掉”的行为分布估计。对平台团队，最可借鉴的是在 release gate 里加入 replay-based behavioral regression，而不是只跑固定安全集。

ENTRY 005/017

[ AGENTSAFETY · SECURITY · DEEPMIND · AICONTROL · CODINGAGENT ]

Google DeepMind AI Control Roadmap：把内部 agent 当作 insider threat 管理

(Securing the future of AI agents)

→ Google DeepMind

DeepMind 发布 AI Control Roadmap，用 defense-in-depth 方式管理越来越强的内部 AI agents。路线图把不完全对齐的 agent 类比为 insider threat，结合 MITRE ATT&CK 风格 threat modeling、trusted supervisor 监控、同步/异步 response，并用 coverage、recall、time-to-response 作为控制指标；团队已分析 100 万条 coding agent tasks。

这篇文章的技术信号很强：DeepMind 不再把 agent 安全只看作模型 alignment 问题，而是把 agent 放进企业安全体系里，用权限、监控、响应和演练来控制风险。它明确指出，当模型能规避检测或隐藏推理时，单纯读取 visible chain-of-thought 会失效，防线需要转向行为分析甚至模型内部检查。

对使用 coding agent 的组织，这比抽象安全原则更可执行。可落地的检查项包括：低风险动作异步审计，高风险动作同步阻断；监控 coverage / recall / time-to-response；把误删数据、过度执行和目标误解作为常见事故类别记录。agent 进入生产基础设施后，这类 control plane 会和 CI、权限、审计日志一样成为基础组件。

ENTRY 006/017

[ GITHUBCOPILOT · ARD · MCP · AGENT · 工具生态 ]

GitHub Copilot Agent Finder：用 ARD 规范做 agent 能力发现

(Agent finder for GitHub Copilot)

→ GitHub Changelog

GitHub 发布 Copilot agent finder：用户用自然语言描述任务后，Copilot 可从指定 registry 中检索 MCP servers、skills、canvases、agents 和 tools，按相关性返回可按需加载的能力。该功能实现开放的 Agentic Resource Discovery (ARD) specification，并与 Google、GoDaddy、Hugging Face、Microsoft 协作推出。

Agent finder 解决的是 agent 生态正在变复杂后的发现问题：不能把所有 MCP server、skill 和工具都塞进上下文，也不能让用户手动记住每个能力。ARD 把“能力发现”抽象成 registry 查询，agent 只在需要时加载相关资源，同时企业可限制 registry 范围和 managed settings。

这与 MCP 的关系很互补。MCP 解决工具连接协议，ARD 解决“该连哪个工具”。如果该规范被更多 IDE、CLI 和 registry 采用，agent tool use 会从手工配置走向可治理的动态发现；但 GitHub 也强调不会自动安装，实际接入仍由用户或企业控制，这对安全边界很关键。

ENTRY 007/017

[ GITHUBCOPILOT · MICROSOFTAI · CODINGMODEL · IDE · DEVELOPERTOOLS ]

MAI-Code-1-Flash 扩展到更多 Copilot surfaces

(MAI-Code-1-Flash available on more Copilot surfaces)

→ GitHub Changelog

Microsoft 的小型编码模型 MAI-Code-1-Flash 扩展到 Copilot CLI、GitHub Copilot app、GitHub 上的 Copilot Chat、Visual Studio、GitHub Mobile、JetBrains、Eclipse 和 Xcode。GitHub 称该模型为 Copilot 专门调优，在同尺寸模型中早期测试质量领先，先面向个人计划逐步开放，Business / Enterprise 随后上线。

这不是一个新的大模型发布，但对开发者工作流影响很直接。MAI-Code-1-Flash 是小模型路线：不是追求最高 reasoning ceiling，而是把低延迟、低成本、足够强的 coding model 部署到更多入口。Copilot CLI、IDE、移动端和 Web Chat 都能用同一类模型后，GitHub 可以按任务形状做模型路由，而不是所有请求都打到最强模型。

对企业团队，值得关注的是小模型在 code completion、短编辑、review suggestion 和快速 CLI 问答中的性价比。它也说明 coding agent 产品正在分层：frontier model 负责长程任务和复杂调试，小模型负责高频低延迟场景，调度策略会成为平台能力的一部分。

ENTRY 008/017

[ GITHUBCOPILOT · CODEREVIEW · AGENTS.MD · DEVELOPERWORKFLOW ]

Copilot code review 开始读取仓库级 AGENTS.md

(Copilot code review: AGENTS.md support and UI improvements)

→ GitHub Changelog

GitHub Copilot code review 现在会自动读取仓库根目录 AGENTS.md，用其中的项目约定和期望调整 review feedback。该更新已 GA，同时为 draft pull request 增加更直接的 Request Copilot review 入口，并折叠部分 Copilot timeline events。

这是一个小更新，但工程意义很明确：agent 不应只读代码，还要读仓库里的行为规范。AGENTS.md 把项目规则从“人类约定”变成 review agent 的输入，使 AI review 更容易贴合本地风格、测试要求和变更边界。

这也强化了一个趋势：AI coding 工具正在围绕仓库级 instruction 文件形成事实标准。对团队来说，最实用的做法是把 review rubric、测试边界、禁止 drive-by refactor、命名约定和安全注意事项写进 AGENTS.md，让自动 review 和人工 review 使用同一套上下文。

ENTRY 009/017

[ MCP · GITHUBISSUES · AGENTWORKFLOW · TRIAGE · DEVELOPERTOOLS ]

GitHub Issues 支持重复 issue 检测与 MCP issue fields

(Detecting Duplicate Issues and issue fields MCP support)

→ GitHub Changelog

GitHub issue 创建表单现在会在填写时提示最多 3 个潜在重复 issue，减少维护者 triage 成本。同时，连接 GitHub MCP server 的 AI tools 现在可以读写 issue fields，让 agent 自动设置 priority、area、dates 等字段，并按字段过滤已有 issue。

这条把 agent 从“写代码”推进到维护者工作流。重复 issue 检测本身是传统 ML/检索应用，但 MCP issue fields 更关键：它让 agent 能把 issue triage 的结构化元数据写回 GitHub，而不是只生成自然语言建议。

对大型开源或企业 repo，这意味着 agent 可以创建更完整的 issue、自动分配领域字段、避免重复提交，并在后续规划时按字段筛选任务。它也让 GitHub MCP server 从只读/简单操作走向更接近项目管理 API 的工作流入口。

ENTRY 010/017

[ DIFFUSION · IMAGEINPAINTING · 模型压缩 · 蒸馏 · 论文 ]

Moebius：0.22B 图像修复模型达到 10B 级质量

(Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance)

→ HF Papers

Moebius 是 6 月 19 日 HF Papers #1。论文提出 Local-lambda Mix Interaction block 和 adaptive multi-granularity distillation，在 latent space 内做多粒度蒸馏，0.22B 参数即可在 6 个自然/人像 inpainting benchmark 上接近或超过 FLUX.1-Fill-Dev 等 10B 级模型，并实现超过 15 倍总推理加速。

Moebius 的价值在于它把图像修复从“通用大模型堆参数”转向“任务专用小模型”。LλMI block 用固定大小线性矩阵压缩局部空间上下文和全局语义先验，绕开更昂贵的高维交互；蒸馏策略则避免像素空间 decoding 成本，直接在 latent space 中对齐中间特征和 diffusion trajectory。

如果结果能被复现，这对产品部署很实际。图像 object removal、portrait repair、local editing 往往是高频交互任务，15 倍推理加速和 0.22B 参数意味着可以把高质量 inpainting 下放到消费级或边缘设备，而不是每次都调用 10B+ 级通用视觉模型。

ENTRY 011/017

[ ROBOTICS · AGENT · SKILLLIBRARY · CODEASPOLICY · 论文 ]

RATs：用自发 play 学习可复用机器人技能

(Playful Agentic Robot Learning)

→ HF Papers

Playful Agentic Robot Learning 提出 RATs，让 embodied coding agent 在下游任务到来前通过 self-directed play 发明可学任务、写 Code-as-Policy、验证进度、诊断失败，并把成功轨迹蒸馏成持久代码 skill library。LIBERO-PRO 和 MolmoSpaces 上分别较 CaP-Agent0 提升 20.6 和 17.0 个百分点；技能库迁移到其他 inference-time agent 时，RoboSuite 和真实世界 transfer 分别提升 8.9 和 8.8 点。

这篇论文把“agent 经验”做成可复用资产。与只在指定任务上反复 retry 的机器人 agent 不同，RATs 在 play 阶段主动探索、失败诊断、形成代码策略，再把成功执行沉淀成 skill library。测试时，模型不需要微调，只把相关技能检索进上下文。

对更广泛的 agent 系统也有启发：技能学习未必一定要更新权重，结构化轨迹、代码策略和自然语言反馈可以成为外部可复用状态。这个方向和 Codex/Claude Code 的 skills、GitHub Agent Finder 都在同一条线上：把 agent 能力从隐式 prompt 迁移到可版本化、可检索的技能资产。

ENTRY 012/017

[ VLM · SPATIALREASONING · 3D · TOOLUSE · 论文 ]

S-Agent：把 VLM 变成带空间工具和记忆的 3D reasoning agent

(S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence)

→ HF Papers

S-Agent 将 VLM 作为 semantic planner，调用 2D grounding、3D geometric evidence lifting、scene aggregation 等分层空间工具，在多视角图像和视频中积累时空证据。训练免改即可提升开源和闭源 VLM；用 S-Agent 生成轨迹做 SFT 后得到 S-Agent-8B，超过类似规模的 Qwen3-VL-8B，并接近 GPT-5.4、Gemini 3 等闭源模型。

S-Agent 的核心不是让 VLM 一次性看图答题，而是把空间推理改写成工具调用和证据累积。模型先决定需要什么证据，再用专门工具 grounding、重建、测量、计数和汇总，Scene Memory 保存变化的场景状态，Agent Memory 保存推理上下文。

这对机器人、AR、视频理解和具身 agent 都有直接意义。现实环境不是孤立帧，而是连续变化的 3D 世界；如果模型不能跨视角、跨时间积累证据，空间判断很容易退化成图像识别。S-Agent 展示了一个实用路线：先用工具轨迹增强 closed/open VLM，再把高质量轨迹蒸馏进小模型。

ENTRY 013/017

[ AGENTEVAL · BENCHMARK · MCP · 评测方法 · 论文 ]

Agent 评测从静态榜单转向 predictive validity

(Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents)

→ HF Papers

IBM 等作者汇总 14 个围绕 MCP-based industrial-agent benchmark 的实现研究和 7 个已有 agent benchmark，指出 aggregate-score leaderboards 无法覆盖部署维度，且 in-sample 排名不能稳定迁移到 out-of-distribution 场景。论文建议用 predictive validity，即 in-sample 与 out-of-sample rank 的相关性来评估 agent 配置，并提出 12 层 measurement apparatus。

这篇是对当前 agent 榜单热的必要降温。agent 系统的真实表现不仅取决于模型，还取决于 orchestration、retrieval、reasoning mode、工具、基础设施和评测任务分布；一个总分榜单很容易把这些部署相关维度压平。

对技术决策者，最重要的建议是不要只看公开 leaderboard 均分，而要看配置在隐藏集、跨资产类别、跨工作流上的排序稳定性。predictive validity 把“榜单是否能预测真实部署表现”作为一等指标，这比单次排名更接近生产选型需要。

ENTRY 014/017

[ PROMPTOPTIMIZATION · LLMPIPELINE · CLAUDECODE · AGENT · 论文 ]

FAPO：让 coding agent 自主优化多步 LLM pipeline

(FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines)

→ HF Papers

FAPO 让 Claude Code 在标准化代码库中优化多步 LLM pipeline：评估 pipeline、检查中间步骤、诊断失败、提出限定范围内的修改并反复验证。它先尝试 prompt edits，必要时再修改 chain structure；在 6 个 benchmark、3 个 task models 的 18 组比较中胜过 GEPA 15 组，平均提升 +14.1 pp；在 HoVer / IFBench 的结构修改场景平均提升 +33.8 pp。

FAPO 的重点是承认多步 LLM pipeline 的失败常来自链路交互，而不是某个 prompt 写得不好。检索、推理、格式化和验证步骤之间会形成瓶颈，prompt-only optimizer 很容易错过结构性问题。FAPO 的设计是先做低风险 prompt 修改，再在 attribution 指向结构瓶颈时调整链路。

这对 RAG、security triage、multi-step QA 和企业内部 agent pipeline 都很实用。它把 coding agent 变成 pipeline optimizer，不只是改 prompt 文案，而是读代码、跑评测、改结构、验证指标。未来很多“prompt engineering”会被这种闭环优化工具吸收。

ENTRY 015/017

[ CODINGAGENT · REPOSITORYEXPLORATION · MICROSOFT · 小模型 · TOKENEFFICIENCY ]

FastContext：为 coding agent 训练专用仓库探索模型

(FastContext: Training Efficient Repository Explorer for Coding Agents)

→ HF Papers · → HF Model

FastContext 将 repository exploration 从 code solving 中拆出来，训练专门的 exploration model 来减少 token consumption 并提升 coding agent 解决率。HF trending 显示 microsoft/FastContext-1.0-4B-SFT 于 6 月 14 日创建，基于 Qwen3-4B-Instruct-2507，MIT license，定位为 Explorer SubAgent / Repository Exploration。

FastContext 对 coding agent 很现实：多数 token 浪费发生在探索仓库，而不是最终改代码。把“找上下文”做成专用小模型或 subagent，可以让主模型把预算集中在设计和实现上。这与 cocoindex-code、code-review-graph 这类代码索引工具的目标一致，都是把 agent 的上下文获取从暴力 grep 推向专门化检索/探索。

真正需要验证的是端到端收益：减少 token 是否会牺牲关键上下文召回，探索模型是否能跨语言、跨 monorepo 和跨架构风格泛化。即便如此，把 repository exploration 作为独立能力训练和部署，已经是 coding agent 架构的一个明确分层方向。

ENTRY 016/017

[ OPENSOURCE · AGENT · VIDEOGENERATION · WORKFLOW · GITHUB ]

OpenMontage：开源 agentic video production system

(OpenMontage)

→ GitHub

OpenMontage 登上 GitHub Python daily trending，项目描述为开源 agentic video production system，包含 12 条 pipelines、52 个 tools 和 500+ agent skills，目标是把 AI coding assistant 转成视频制作工作室。GitHub trending 显示其当日获得 738 stars。

OpenMontage 代表一个值得注意的应用范式：不是只发布一个 video model，而是把视频制作拆成 agent 可执行的 pipeline、tools 和 skills。视频生产天然包含脚本、素材检索、镜头规划、编辑、生成、后处理和导出等多阶段流程，适合用 agent orchestration 而非单模型 API 包装。

它还体现了技能资产化趋势。500+ agent skills 的设计如果组织得足够清晰，就能让通用 coding assistant 复用领域流程，而不是每次从 prompt 里临时解释。需要进一步验证的是这些 pipeline 是否能稳定复现，以及工具链依赖和版权/素材管理是否足够工程化。

ENTRY 017/017

[ CODINGAGENT · CODESEARCH · AST · TOKENEFFICIENCY · GITHUB ]

CocoIndex Code：面向 coding agent 的轻量 AST 代码搜索

(cocoindex-code)

→ GitHub

cocoindex-code 是 GitHub Python daily trending 项目，定位为 super light-weight embedded code search engine CLI，基于 AST 做代码搜索，项目描述声称可为 coding agent 节省 70% token 并提升速度。GitHub trending 显示其当日获得 48 stars。

代码搜索是 coding agent 的基础瓶颈之一。grep 适合字符串匹配，但 agent 常需要“这个 symbol 在哪里定义、谁调用、相关结构是什么”这类结构化问题。基于 AST 的嵌入式代码搜索如果足够轻量，就能作为本地上下文压缩层，减少把整段无关代码塞进模型的需要。

这类工具的价值要通过两个指标判断：关键上下文召回率和 token 节省后的任务成功率。项目当前还需要更多 benchmark 和跨语言验证，但它和 FastContext、code-review-graph 指向同一件事：coding agent 的下一阶段优化重点是上下文系统，而不只是更强模型。

其他值得关注

VibeThinker-3B：小模型可验证推理训练 (VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models) — VibeThinker-3B：小模型可验证推理训练
code-review-graph：本地优先代码智能图谱 (Local-first code intelligence graph for MCP and CLI) — code-review-graph：本地优先代码智能图谱
openai/skills：Codex Skills Catalog (Skills Catalog for Codex) — openai/skills：Codex Skills Catalog
Gemini API 6 月 15 日 deprecations (Gemini API changelog) — Gemini API 6 月 15 日 deprecations
DeepMind 多 agent 安全研究资助 (Investing in multi-agent AI safety research) — DeepMind 多 agent 安全研究资助
JanusMesh (Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising) — JanusMesh
Gemma 4 12B (Introducing Gemma 4 12B) — Gemma 4 12B

← 2026.06.13 —