螞蟻百靈近日正式發(fā)布了一款名為 Ling-2.6-flash 的 Instruct 模型,該模型以“Token 效率”為核心優(yōu)勢,總參數(shù)量達(dá) 104B,激活參數(shù)為 7.4B。在保持高智能水平的同時,Ling-2.6-flash 在速度、成本和實(shí)際應(yīng)用方面表現(xiàn)出色,尤其適合大規(guī)模真實(shí)場景部署。
根據(jù)第三方權(quán)威評測機(jī)構(gòu) Artificial Analysis 的數(shù)據(jù),Ling-2.6-flash 在輸出 15M tokens 的情況下,取得了 26 分的 Intelligence Index,展現(xiàn)了卓越的 Token 效率。與一些依賴更長輸出以換取更高分?jǐn)?shù)的模型相比,Ling-2.6-flash 在智能表現(xiàn)和輸出成本之間實(shí)現(xiàn)了更優(yōu)的平衡。
對于開發(fā)者和企業(yè)用戶而言,Ling-2.6-flash 的效率優(yōu)勢體現(xiàn)在多個方面:推理開銷更低、首字響應(yīng)更快、整體生成時延更短,從而帶來更流暢的交互體驗(yàn)。這些特點(diǎn)使其能夠滿足真實(shí)部署環(huán)境下對速度、成本和用戶體驗(yàn)的綜合需求。
在架構(gòu)設(shè)計上,Ling-2.6-flash 延續(xù)了 Ling 2.5 的混合線性架構(gòu),采用高度稀疏化的 MoE 架構(gòu),在硬件性能上表現(xiàn)突出。在 4 卡 H20 條件下,其推理速度最快可達(dá) 340 tokens/s,Prefill 吞吐量是 Nemotron-3-Super 的 2.2 倍。在 Output Speed 測評中,Ling-2.6-flash 以 215 tokens/s 的穩(wěn)定輸出速度躋身同參數(shù)級別模型的第一梯隊。
從 Token 消耗來看,Ling-2.6-flash 的智效比顯著提升。在 Artificial Analysis 的完整測評中,其總消耗僅為 15M tokens,而 Nemotron-3-Super 等模型則達(dá)到或超過 110M tokens。這意味著 Ling-2.6-flash 僅用約 1/10 的 Token 消耗就完成了同類評測任務(wù)。
Ling-2.6-flash 還針對 Agent 場景進(jìn)行了定向優(yōu)化,在控制 Token 消耗的前提下,依然保持了強(qiáng)大的任務(wù)執(zhí)行能力。該模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-eval、PinchBench 等 Agent 相關(guān)基準(zhǔn)測試中達(dá)到同尺寸模型的 SOTA 水平。同時,它在通用知識、數(shù)學(xué)推理、指令遵循及長文本解析等維度也保持了優(yōu)秀表現(xiàn)。
在 API 定價方面,Ling-2.6-flash 提供了極具競爭力的價格:輸入每百萬 tokens 定價 0.1 美元,輸出 0.3 美元。目前,該模型的 API 已正式向用戶開放,并提供為期一周的限時免費(fèi)試用。用戶可以通過 OpenRouter 或百靈大模型 tbox 獲取服務(wù)。據(jù)悉,螞蟻數(shù)科后續(xù)將發(fā)布 Ling-2.6-flash 的商業(yè)版本 LingDT,面向全球開發(fā)者及中小企業(yè)提供服務(wù)。
值得一提的是,一周前,Ling-2.6-flash 的匿名測試版本“Elephant Alpha”已在 OpenRouter 上線。自上線以來,其調(diào)用量持續(xù)增長,連續(xù)多日位居 Trending 榜首,日均 tokens 調(diào)用量達(dá) 100B 級別,周增長率超過 5000%。















