前阿里千問技術負責人林俊旸在離職后發布的長文中,對AI大模型領域的技術演進方向作出重要判斷。他指出,當前行業正經歷從"推理型思考"向"智能體思考"的關鍵轉型,這一轉變標志著大模型發展進入全新階段。以OpenAI o1和DeepSeek-R1為代表的推理模型浪潮,推動行業從單純擴大預訓練規模轉向強化學習后訓練規模的突破,數學驗證與代碼生成等可量化領域成為檢驗模型準確性的核心場景。
在技術實踐層面,林俊旸披露了千問團隊在Qwen3研發過程中遭遇的架構矛盾。團隊嘗試構建融合指令模式與思考模式的混合系統時發現,指令模型追求的極簡架構與低延遲特性,與思考模型所需的復雜推演存在根本沖突。這種矛盾在數據分布層面尤為突出——指令模型依賴簡潔指令數據,而思考模型需要海量推演數據支撐。當團隊試圖通過數據篩選實現融合時,最終導致模型在基礎指令處理和復雜推理任務中均表現平平。基于商業客戶對處理效率與成本控制的雙重需求,Qwen2507版本最終選擇推出30B與235B分離的指令模型與思考模型變體。
對比行業其他探索路徑,Anthropic與DeepSeek等企業仍在推進推理與工具調用的統一架構研發。但林俊旸強調,隨著智能體強化學習(Agentic RL)技術棧的成熟,傳統訓練推理耦合模式將面臨顛覆。當大模型開始具備調用搜索引擎、執行代碼等環境交互能力時,如何防止模型通過操縱環境反饋獲取虛假獎勵(Reward Hacking)將成為關鍵挑戰。這種技術范式轉變要求開發者將核心競爭力從算法創新轉向系統工程能力,包括構建高質量交互環境、設計防作弊驗證機制以及協調多智能體協作體系。在智能體思考時代,模型性能的競爭將延伸至工具鏈整合、環境模擬精度等維度,形成全新的技術護城河。
















