小米MiMo-V2.5系列大揭秘：全鏈路優(yōu)化技術(shù)細(xì)節(jié)首公開，推理成本大降-軟件產(chǎn)品-虎科技

小米MiMo-V2.5系列大揭秘：全鏈路優(yōu)化技術(shù)細(xì)節(jié)首公開，推理成本大降

時(shí)間：2026-05-31 04:27 來源：快訊作者：蘇婉清

小米近日宣布，其MiMo-V2.5系列API完成永久性價(jià)格調(diào)整，最高降幅達(dá)99%，且不限制輸入長度。這一舉措的背后，是該團(tuán)隊(duì)在推理系統(tǒng)全鏈路優(yōu)化方面取得的重大突破。此次降價(jià)不僅讓用戶直接受益，更標(biāo)志著小米在大模型推理技術(shù)領(lǐng)域?qū)崿F(xiàn)了關(guān)鍵性進(jìn)展。

技術(shù)突破與工程落地之間存在顯著鴻溝。初期主流開源框架對(duì)SWA的支持存在缺陷，實(shí)質(zhì)上是以存儲(chǔ)完整KVCache的代價(jià)兼容SWA模式，導(dǎo)致理論收益難以兌現(xiàn)。小米團(tuán)隊(duì)通過系統(tǒng)性重構(gòu)推理?xiàng)＃瑥腒VCache管理、分級(jí)緩存、前綴緩存到調(diào)度策略與Prefill/Decode鏈路進(jìn)行全面優(yōu)化。其中，KVCache雙池分治設(shè)計(jì)將存儲(chǔ)拆分為Full KV Pool與SWA KV Pool，前者按需增長、長期保存，后者采用環(huán)形緩沖區(qū)實(shí)現(xiàn)窗口級(jí)獨(dú)立淘汰，使存儲(chǔ)效率提升約7倍。前綴緩存樹重構(gòu)則通過引入"窗口安全長度"匹配規(guī)則、綁定淘汰路徑與請求生命周期、支持獨(dú)立淘汰策略，將線上前綴緩存命中率提升至平均93%，高頻用戶超過95%。

針對(duì)用戶對(duì)話間隔導(dǎo)致的緩存成本問題，小米自研GCache三級(jí)緩存系統(tǒng)實(shí)現(xiàn)KVCache在GPU顯存、CPU內(nèi)存和NVMe SSD間的自動(dòng)流轉(zhuǎn)。該系統(tǒng)通過RDMA通信實(shí)現(xiàn)170GB/s讀吞吐和280μs延遲，結(jié)合SWA的極小存儲(chǔ)占用，使相同成本下可承載緩存量成倍提升。在調(diào)度優(yōu)化方面，團(tuán)隊(duì)實(shí)現(xiàn)KVCache親和調(diào)度與計(jì)算量感知優(yōu)先調(diào)度，使L2緩存命中率提升25%，TTFT P90降低30%。Prefill鏈路通過縮減Expert Parallelism至原先1/2、采用三級(jí)長度分桶策略，實(shí)現(xiàn)端到端性能提升40%。

Decode階段優(yōu)化聚焦顯存利用率提升。通過支持SWA的KVCache優(yōu)化使有效容量提升近5倍，結(jié)合CUDA Graph顯存調(diào)優(yōu)與PD分離預(yù)分配優(yōu)化，單節(jié)點(diǎn)并發(fā)能力顯著增強(qiáng)。MiMo-V2.5原生支持的3層MTP（Multi-Token Prediction）加速輸出技術(shù)，使前128 token加速比達(dá)2.3倍，128-256 token達(dá)1.5倍。在多模態(tài)處理方面，團(tuán)隊(duì)實(shí)現(xiàn)視覺、音頻、視頻跨模態(tài)理解的并行化處理：Encoder支持跨請求組Batch，圖片預(yù)處理遷移至GPU，視頻解碼采用多chunk并行處理，使1小時(shí)視頻端到端延時(shí)從156秒降至23秒，整體Encoder吞吐提升至2倍。

這項(xiàng)覆蓋Hybrid SWA+MoE+多模態(tài)組合架構(gòu)的大規(guī)模工程實(shí)踐，通過系統(tǒng)性優(yōu)化將理論效率優(yōu)勢轉(zhuǎn)化為真實(shí)生產(chǎn)環(huán)境收益。小米已將部分優(yōu)化成果通過PR形式回饋SGLang開源社區(qū)，并計(jì)劃持續(xù)推進(jìn)更多開源計(jì)劃，旨在降低工程優(yōu)化門檻，推動(dòng)復(fù)合架構(gòu)的廣泛應(yīng)用。此次API降價(jià)正是技術(shù)突破的直接體現(xiàn)，用戶將以更低成本獲得更高性能的模型服務(wù)。

更多>同類內(nèi)容

2026年5月29日ETF市場掃描：可轉(zhuǎn)債ETF成交	盧偉冰官宣：小米17T國行版6月上旬登場，雙
AI接管工作流時(shí)代：核心知識(shí)放云端，是便利	云桌面系統(tǒng)：破解物業(yè)IT運(yùn)維難題，實(shí)現(xiàn)高效

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

小米MiMo-V2.5系列大揭秘：全鏈路優(yōu)化技術(shù)細(xì)節(jié)首公開，推理成本大降