在最新發布的中文大模型基準測評SuperCLUE中,22款國內外主流模型展開激烈競爭,測評結果引發行業廣泛關注。本次測評圍繞數學推理、科學推理、代碼生成等六大核心任務展開,全面評估模型的綜合能力,為技術發展提供了重要參考依據。
海外閉源模型在總分排名中繼續占據優勢地位。Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)和OpenAI的GPT-5.4(xhigh)包攬前三名,展現出強大的技術實力。值得注意的是,字節跳動旗下豆包(Doubao-Seed-2.0-pro-260215(high))以71.53分的成績緊隨其后,與第三名GPT-5.4僅相差0.95分,成功躋身全球第一梯隊。該模型在智能體任務規劃維度表現尤為突出,甚至反超部分海外競爭對手,位列全球前五。
國內科技企業在此次測評中表現亮眼。小米集團推出的MiMo-V2系列兩款模型均成功入圍榜單,其中MiMo-V2-Pro以60.67分的成績在閉源模型中名列前茅,特別是在數學推理任務中取得84.03分的高分。另一款開源版本MiMo-V2-Flash雖然總分49.97分排名相對靠后,但在代碼生成等特定場景中展現出獨特潛力,為開發者提供了新的選擇。
開源賽道成為本次測評的一大亮點。Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等國產開源模型包攬開源榜單前三名,在性能表現上大幅領先海外同類開源模型。這一成果不僅體現了國內企業在開源技術領域的積累,也為全球開發者社區貢獻了重要力量,推動了行業技術的共同進步。















