标签: "SWE-Bench"

论文精读 001 — Polar：不打开盒子也能训练 Agent

Polar（arXiv 2605.24220，出自 NVIDIA）训练语言 agent 的办法是代理它的 LLM API 调用，而不是重写 harness。集成点从 agent 本身挪到了模型 endpoint —— 正是我们用 SGLang 已经在跑的那道缝。细读它的架构、四步代理、 token-faithful prefix merging，以及 SWE-Bench 结果，配手写 SVG 图。