英偉達研究團隊近日推出開源框架Polar,為代碼智能體訓練領域帶來突破性進展。該框架通過創新設計,使Codex、Claude Code、Qwen Code等主流代碼智能體能夠無縫接入GRPO(廣義相對策略優化)訓練體系,同時保持原有工具調用方式和開發流程不變。
GRPO作為一種強化學習優化方法,通過獎勵信號動態調整模型策略,特別適用于需要多步決策的復雜任務。在代碼智能體訓練場景中,該技術可使模型在真實工具調用和代碼補丁提交過程中持續優化表現。研究團隊指出,當前智能體強化學習正從單一任務向長流程任務轉型,涉及代碼倉庫維護、瀏覽器自動化操作等復雜場景,這些任務高度依賴現有執行框架,傳統改造方式往往導致關鍵訓練信號丟失。
Polar框架的創新之處在于其獨特的訓練邊界設計。不同于傳統方法對執行框架的全面改造,該框架在模型API邊界處部署智能體,最大限度保留原有開發環境(harness)的完整性。這種設計兼容Anthropic、OpenAI、Google等主流API風格,通過記錄請求提示詞、采樣令牌、對數概率等關鍵數據,構建完整的訓練軌跡。
系統架構方面,Polar采用雙組件設計:rollout server負責任務調度、狀態管理和回調處理,gateway node則管理會話全生命周期,包括框架初始化、軌跡構建和資源回收。研究團隊特別優化了任務處理流程,將初始化、運行和后處理階段分離到獨立工作池,配合READY緩沖區機制,使GPU訓練效率提升顯著。
實驗數據顯示,基于Qwen3.5-4B模型的測試中,Polar配合GRPO訓練使四種代碼執行框架的性能獲得顯著提升:在SWE-Bench Verified基準測試中,Codex框架的pass@1分數從3.8%躍升至26.4%,增幅達594.74%;其他框架也有6%-18%的不同程度提升。效率優化方面,prefix_merging技術使訓練步驟更新次數減少82%,墻鐘時間縮短至原來的18%,GPU利用率提升至87.7%。















