在人工智能領域,阿里巴巴再次以創新實力引領行業風向。近日,阿里巴巴旗下千問大模型系列迎來重大突破,正式發布旗艦版本Qwen3.7-Max。這款專為智能體場景深度優化的大模型,憑借多項核心能力的突破性提升,在權威測評中展現強勁實力,綜合表現直追國際頂尖水平,成為國產大模型發展的又一里程碑。
在編程能力領域,Qwen3.7-Max展現出顯著優勢。該模型在SWE-Pro、SWE-Multilingual等智能體編程測評中持續領跑,其中Terminal Bench 2.0-Terminus測試得分高達69.7,不僅超越DeepSeek-v4-pro-Max等國產模型,更力壓Claude-Opus4.6等國際主流產品。這一突破標志著國產大模型在復雜編程任務處理能力上實現質的飛躍。
通用智能體能力方面,Qwen3.7-Max在貼近真實場景的測試中表現卓越。在MCP-Atlas、MCP-Mark、Skillbench等權威測評中,該模型以顯著優勢超越GLM5.1、Kimi-K2.6等國內同類產品,刷新國產模型在該領域的最佳成績。特別是在多任務協同處理和復雜場景適應能力上,展現出強大的工程化應用潛力。
推理與通用能力測評中,Qwen3.7-Max持續突破技術邊界。在GPQA Diamond、HLE、HMMT 2026 Feb等高難度推理測試中,該模型不僅超越所有國產模型,更在部分指標上領先Claude-Opus4.6。指令遵循測試IFBench斬獲79.1分,多語言能力測評WMT24++、MAXIFE等項目均保持行業領先地位,充分驗證其跨語言、跨領域的通用智能水平。
最具顛覆性的是,Qwen3.7-Max成功完成35小時全自主硬件優化任務。在無任何技術文檔、參考代碼和性能數據的條件下,該模型在平頭哥真武M890芯片平臺上從零開始,獨立完成內核編寫、編譯、性能分析與迭代優化全流程。期間執行432次內核評估、1158次工具調用,最終實現較官方參考實現10倍性能提升,并自主發起關鍵架構重構,展現出接近人類工程師的長期自主工作能力。
技術特性方面,Qwen3.7-Max具備卓越的跨框架泛化能力,支持多智能體協同工作模式。在辦公自動化場景SpreadSheetBench-v1測試中,該模型以87分的優異成績證明其在復雜業務場景中的實用價值。據阿里云透露,Qwen3.7-Max API即將登陸百煉平臺,后續還將推出Qwen3.7-Plus等版本,構建覆蓋編程、視覺、辦公等全場景的智能體解決方案生態。















