阿里近日正式推出其最新一代千問旗艦推理模型——Qwen3-Max-Thinking,該模型在多項權(quán)威評測中創(chuàng)下全球新紀(jì)錄,性能比肩國際頂尖的GPT-5.2和Gemini 3 Pro,成為國內(nèi)AI大模型領(lǐng)域的新標(biāo)桿。
作為阿里目前規(guī)模最大、能力最強的推理模型,Qwen3-Max-Thinking的總參數(shù)量超過萬億級別,預(yù)訓(xùn)練數(shù)據(jù)量高達36T Tokens。通過大規(guī)模擴展總參數(shù)、強化學(xué)習(xí)以及推理計算,新模型在科學(xué)知識、數(shù)學(xué)推理、代碼編程等關(guān)鍵性能基準(zhǔn)測試中刷新了全球紀(jì)錄,展現(xiàn)了強大的技術(shù)實力。
在推理能力提升方面,Qwen3-Max-Thinking引入了一種創(chuàng)新的測試時擴展(Test-time Scaling)機制。這一機制通過提煉此前推理的“經(jīng)驗”,并進行多輪自我迭代,在相同上下文中實現(xiàn)更高效的推理計算,從而獲得更智能的結(jié)果。相比業(yè)界普遍采用的冗余推理方式,該機制顯著提升了推理效率和性能。例如,在“人類最后的測試”(HLE)中,Qwen3-Max-Thinking以58.3分的成績超越了GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,成為當(dāng)前所有模型中的最高分。
針對即將到來的智能體Agent時代,Qwen3-Max-Thinking還大幅增強了自主調(diào)用工具的原生Agent能力。通過基于規(guī)則獎勵與模型獎勵的聯(lián)合強化學(xué)習(xí)訓(xùn)練,模型能夠更智能地結(jié)合工具進行思考。這種自適應(yīng)的工具調(diào)用能力已在QwenChat上實現(xiàn),用戶可以體驗到模型自主選用搜索、個性化記憶和代碼解釋器等核心Agent工具功能,獲得更專業(yè)、更貼合需求的回答,同時模型幻覺問題也顯著減少,為解決復(fù)雜任務(wù)奠定了基礎(chǔ)。
目前,開發(fā)者可以在QwenChat上免費體驗Qwen3-Max-Thinking模型,企業(yè)用戶則可通過阿里云百煉獲取新模型的API服務(wù)。普通用戶也可以通過千問的PC端和網(wǎng)頁端試用該模型。據(jù)悉,千問App即將接入這一新模型,屆時所有用戶均可免費體驗這款國內(nèi)最強的AI大模型。
















