在2026阿里云峰會上,阿里巴巴正式推出新一代千問旗艦大模型Qwen3.7-Max,引發行業高度關注。這款模型在第三方機構Arena全球大模型盲測中表現卓越,不僅超越Kimi-K2.6、DeepSeek-v4-pro等國產模型,更與GPT、Claude、Gemini等國際頂尖模型比肩,穩居國產模型榜首位置。
Qwen3.7-Max的突破性進展體現在多個維度。在編程能力方面,該模型在SWE-Pro、SWE-Multilingual等權威測評中取得領先成績,Terminal Bench 2.0-Terminus得分達69.7,超越DeepSeek-v4-pro-Max、Claude-Opus4.6等模型。其編程能力覆蓋從前端原型開發到復雜多文件工程的全流程,在SWE-bench系列測評和SciCode編程測評中較前代模型實現顯著提升,展現出資深工程師級的代碼編寫與自我糾錯能力。
通用智能體性能同樣表現亮眼。在MCP-Atlas、MCP-Mark等現實能力測試中,Qwen3.7-Max超越GLM5.1、Kimi-K2.6等模型,創下國產新高。該模型在Kernel Bench L3測試中展現出強大的GPU內核優化能力,在GPQA Diamond、HLE等推理核心測評中均超越Claude-Opus4.6及所有國產模型。多語言能力方面,其在指令遵循IFBench評測中取得79.1分突破性成績,在WMT24++、MAXIFE等翻譯評測中保持領先優勢。
最引人注目的是Qwen3.7-Max在長程復雜任務中的自主迭代能力。在平頭哥真武M890芯片這一全新硬件平臺上,該模型通過持續35小時的自主編程,完成1158次工具調用和432次內核評估,最終實現推理內核10倍加速。測試軌跡顯示,模型在運行超30小時后仍能發現優化點,甚至主動發起架構重設計,這種長周期自主迭代能力為AI模型進化開辟了新路徑。
在企業級應用場景中,Qwen3.7-Max通過MCP集成和多智能體協作,在SpreadSheetBench-v1辦公自動化基準測試中斬獲87分。以往需要專業團隊耗時1-2周的復雜項目,現在由該模型驅動的智能體可在數小時內完成端到端交付。這種效率提升得益于其跨框架泛化能力,能在Claude Code、OpenClaw、Qwen Code等多種智能體框架下穩定運行。
阿里云同步宣布技術體系全面升級,推出"芯-云-模型-推理"一體化解決方案。Qwen3.7-Max模型API即將登陸阿里云百煉平臺,同時將推出具備多模態推理和視覺理解能力的Qwen3.7-Plus等版本,構建覆蓋編程智能體與視覺智能體的全能基座,為Agentic時代提供核心技術支持。















