螞蟻集團(tuán)旗下百靈大模型近日正式發(fā)布Instruct模型Ling-2.6-flash,該模型總參數(shù)量達(dá)104B,激活參數(shù)為7.4B。這款新模型在技術(shù)路徑選擇上突破傳統(tǒng)框架,通過(guò)優(yōu)化推理效率、Token使用效率及Agent場(chǎng)景適配性,構(gòu)建起差異化的技術(shù)優(yōu)勢(shì)。其核心架構(gòu)創(chuàng)新與場(chǎng)景化設(shè)計(jì),使其在同類模型中展現(xiàn)出顯著競(jìng)爭(zhēng)力。
技術(shù)團(tuán)隊(duì)在架構(gòu)設(shè)計(jì)上采用混合線性計(jì)算模式,通過(guò)底層計(jì)算單元的重組優(yōu)化,使模型在4卡H20硬件環(huán)境下實(shí)現(xiàn)340 tokens/s的推理速度,Prefill吞吐量達(dá)到Nemotron-3-Super的2.2倍。這種設(shè)計(jì)突破了單純依賴模型規(guī)模提升性能的路徑,在保持智能水平的同時(shí),將硬件資源利用率提升至新高度。在Token效率方面,研發(fā)團(tuán)隊(duì)通過(guò)動(dòng)態(tài)輸出校準(zhǔn)機(jī)制,使模型在Artificial Analysis評(píng)測(cè)中僅消耗15M tokens即達(dá)成目標(biāo),用量?jī)H為同類模型的十分之一。
針對(duì)企業(yè)級(jí)應(yīng)用需求,模型特別強(qiáng)化了Agent場(chǎng)景能力。通過(guò)優(yōu)化工具調(diào)用接口、多步驟任務(wù)拆解算法及執(zhí)行鏈路容錯(cuò)機(jī)制,Ling-2.6-flash在BFCL-V4、TAU2-bench等權(quán)威評(píng)測(cè)中,與參數(shù)規(guī)模更大的模型展開正面競(jìng)爭(zhēng),仍取得領(lǐng)先或持平的優(yōu)異成績(jī)。特別是在復(fù)雜任務(wù)執(zhí)行環(huán)節(jié),其表現(xiàn)已達(dá)到同尺寸模型的行業(yè)標(biāo)桿水平。
為降低開發(fā)者使用門檻,百靈大模型同步推出雙重接入方案。即日起在OpenRouter平臺(tái)及官方渠道提供為期一周的免費(fèi)API調(diào)用服務(wù),后續(xù)采用階梯計(jì)價(jià)模式:國(guó)際版輸入0.1美元/百萬(wàn)tokens,輸出0.3美元/百萬(wàn)tokens;國(guó)內(nèi)版輸入0.6元/百萬(wàn)tokens,輸出1.8元/百萬(wàn)tokens,并保留每日50萬(wàn)tokens的永久免費(fèi)額度。緩存命中場(chǎng)景下,國(guó)際版按20%比例收取0.02美元/百萬(wàn)tokens的費(fèi)用。
開源計(jì)劃方面,技術(shù)團(tuán)隊(duì)透露BF16、FP8、INT4等量化版本將于近期陸續(xù)開放下載。這些版本在保持核心性能的同時(shí),將硬件適配門檻降低60%以上,特別適合邊緣計(jì)算設(shè)備部署。此次開源策略覆蓋從研發(fā)到落地的全鏈條需求,為不同規(guī)模的企業(yè)提供靈活的技術(shù)選擇空間。















