国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

  • 虎科技 - 領先的互聯網科技媒體

智譜GLM-5.1高速版API發布:400 tokens每秒,國產大模型實現旗艦能力與低延遲并存

   時間:2026-05-23 01:59 來源:快訊作者:陸辰風

智譜近日宣布推出一款面向企業客戶的高速版API——“GLM-5.1-highspeed”,該模型輸出速度高達400 tokens/s,成為全球大模型廠商API中速度最快的產品之一。這一突破不僅刷新了行業紀錄,更在國產大模型領域首次實現了旗艦級能力與低延遲的完美結合,打破了“高速即輕量”的傳統認知。

GLM-5.1高速版的成功離不開智譜GLM團隊與TileRT團隊的深度合作。雙方從推理引擎、調度系統到基礎設施層面進行了系統性優化:在推理引擎層,針對模型架構特點重寫核心路徑,顯著提升單卡吞吐能力;調度系統通過動態批處理、請求合并和KV緩存調度優化,有效降低高并發場景下的尾延遲;基礎設施則圍繞集群部署、網絡鏈路和負載均衡展開協同優化,確保400 tokens/s的輸出速度成為穩定可靠的生產級能力。

傳統大模型推理速度受限于調度框架的設計。主流框架以算子為基本調度單元,每個算子需經歷完整的“啟動-計算-同步”流程,導致在單token、小batch場景下,調度開銷被急劇放大。TileRT團隊通過徹底重構推理流程,在編譯期將整個計算圖靜態編排為常駐GPU的持久化引擎內核,實現了單卡內計算、異步IO與通信的微任務級拆解。這種設計使得推理過程僅需啟動一次引擎內核,中間結果通過寄存器、共享內存和L2緩存直接傳遞,大幅減少了全局內存訪問和主機調度開銷。

在多卡協同方面,TileRT將NVIDIA SM單元的Warp特化思想擴展至8卡NVL拓撲結構。不同GPU根據計算密度和數據依賴關系執行差異化任務,形成高效的分工協作模式。這種架構突破了傳統同構計算的局限,在保持低延遲的同時,充分釋放了多卡集群的并行計算潛力。

目前,GLM-5.1高速版已面向智譜MaaS平臺的部分企業客戶開放服務,特別適用于AI編程、實時交互、商業決策和實時語音等對響應速度要求嚴苛的場景。該模型的推出標志著國產大模型在工程化落地方面取得重要進展,為企業級應用提供了更高效的技術解決方案。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群