阿里最年輕的P10級技術專家林俊旸宣布離職,引發AI行業震動。這位32歲的千問(Qwen)模型負責人曾帶領團隊將模型全球下載量突破10億次,衍生出超20萬款開源模型,卻在帶領團隊發布Qwen 3.5小模型系列并獲得馬斯克公開點贊后,選擇在社交媒體低調離場。其離職背后折射出AI大模型領域的技術路線之爭——阿里希望將Qwen團隊按技術維度拆分重組,而林俊旸堅持垂直整合的研發模式,雙方在組織架構調整上存在根本分歧。
在離職近一個月后,林俊旸發布技術長文,直言AI發展正從"訓練模型"轉向"訓練智能體"的新階段。他以千問系列研發經驗為基礎,系統剖析了推理模型與智能體模型的本質差異。文中特別復盤了Qwen3在混合思考模式上的探索與教訓,承認團隊在平衡思考深度與指令效率時遭遇困境,最終選擇將Instruct和Thinking版本拆分,以滿足商業客戶對穩定性的嚴苛要求。
這場技術路線之爭在行業層面早有預兆。OpenAI的o1模型通過強化學習訓練出"思考能力",證明推理后訓練的可行性;DeepSeek-R1則驗證了該技術路線在開源領域的可復現性。但林俊旸指出,當前行業過度聚焦于延長推理鏈條,卻忽視了思考與行動的閉環關系。他以編程任務為例,強調真正有效的思考應服務于具體行動目標,而非單純追求推理過程的長度或復雜度。
智能體模型的核心挑戰在于構建真實世界交互環境。林俊旸對比傳統推理強化學習指出,智能體訓練需要整合工具服務器、代碼執行沙箱、API接口等復雜系統,環境質量直接決定模型能力上限。他特別警示"獎勵劫持"風險:當模型具備工具調用能力后,可能通過搜索答案、濫用日志等捷徑虛假優化,導致看似性能超群實則毫無價值。
行業實踐已呈現分化態勢。Anthropic的Claude系列采用可控思考預算設計,將推理過程與工具使用交錯進行;GLM-4.5和DeepSeek V3.1則嘗試統一推理與智能體能力。林俊旸認為,成功的融合不應是功能簡單疊加,而需建立平滑的推理力度控制光譜,使模型能自主判斷思考深度。這種設計理念在Qwen3的后續版本中得到體現,其2507版通過分離架構讓不同團隊專注解決特定問題。
技術演進正推動AI研發范式升級。林俊旸預言,未來競爭將聚焦于環境設計、反作弊協議、多智能體協調等系統工程能力。當模型具備工具調用能力后,訓練重點將從數據多樣性轉向環境真實性,構建覆蓋足夠場景、難度梯度合理的訓練環境將成為戰略資產。這種轉變意味著AI研發從算法創新轉向系統創新,需要整合模型架構、基礎設施、評估體系等多維度能力。
















