寒序科技亮劍推理芯片賽道：北大系黑馬挑戰巨頭，目標2000 Tokens每秒-移動互聯-虎科技

手機版

虎科技 - 領先的互聯網科技媒體

寒序科技亮劍推理芯片賽道：北大系黑馬挑戰巨頭，目標2000 Tokens每秒

時間：2026-03-11 01:26 來源：快訊作者：沈瑾瑜

當英偉達被傳以200億美元估值“招安”北美推理芯片明星企業Groq時，一場關于AI算力格局的變革正在悄然醞釀。而在太平洋彼岸，一家脫胎于北京大學的創業團隊——寒序科技，正以“非共識”技術路線向行業拋出重磅炸彈：其首顆超大帶寬流式推理芯片完成流片測試，單位面積帶寬突破100 GB/s/mm2，下一代“MRAM+SRAM”混合架構更將目標直指2000 Tokens/s的推理速度極限。

這場技術突圍戰的核心，直指傳統GPU架構的“阿喀琉斯之踵”——內存墻。現代GPU為兼容通用計算，設計了復雜的多級緩存和動態調度機制，在訓練階段通過數據并行展現統治力，卻在推理場景中陷入“高射炮打蚊子”的困境。以生成Token為例，每個步驟依賴的矩陣向量乘運算（GEMV）本質是帶寬受限型任務，而GPU的浮點運算單元常因等待顯存數據搬運而閑置，導致算力利用率不足30%。

寒序科技的解決方案堪稱“暴力美學”：徹底摒棄硬件調度邏輯，采用片上存儲權重的流式架構。其芯片內部被劃分為三大功能模塊——高密度權重存儲區、GEMV計算陣列、向量運算單元，數據流動路徑嚴格遵循神經網絡前向傳播的確定性規則。這種“生產線模式”設計使每個納秒的數據位置均可預判，消除動態資源爭搶帶來的延遲抖動，將帶寬利用率推至理論極限。

流片測試數據印證了技術路線的顛覆性。在40nm制程下，寒序首顆芯片實現單位面積帶寬100 GB/s/mm2，較傳統HBM3e方案提升3倍以上，較Groq同類架構密度提升40%。這意味著在相同芯片尺寸下，寒序方案可處理更大規模的模型參數，或以更小功耗達成同等推理性能。對于需要毫秒級響應的具身智能、實時同傳等場景，這種突破直接解決了“算力夠用但帶寬不夠”的行業痛點。

更令行業矚目的是其下一代混合存儲架構。針對Groq純SRAM方案容量受限的缺陷，寒序創新性引入MRAM（磁性隨機存儲器）。這種新型非易失性存儲器兼具SRAM級速度與DRAM級密度，單芯片模型存儲容量較純SRAM方案提升10倍以上。通過動態分配MRAM存儲長程權重、SRAM緩存短程激活數據，混合架構在保持2000 Tokens/s極限速度的同時，將單卡可運行模型規模從70B擴展至300B量級，為多智能體協同、復雜環境推理等場景提供算力基石。

技術突破的背后，是北大磁學中心十余年的底層研究積淀。團隊在MRAM材料與存算一體架構領域擁有60余項專利，其獨創的“磁電耦合寫入技術”使MRAM寫入能耗降低80%，突破了混合架構落地的最后一道屏障。這種從材料到系統的垂直創新，使寒序成為全球少數掌握高密度MRAM集成能力的推理芯片企業。

資本市場的反應印證了技術路線的價值。在完成數千萬元Pre-A輪融資后，寒序科技已啟動7nm制程芯片流片，預計2026年實現量產。投資方啟高資本表示：“當行業還在爭論GPU與ASIC路線時，寒序用確定性流式架構重新定義了推理芯片的物理邊界，這種底層創新具有真正的范式革命意義。”

隨著AI Agent從實驗室走向產業應用，推理芯片的市場格局正在重構。英偉達雖在GTC 2026前夕強化推理布局，但其基于GPU的改良方案仍受制于架構慣性。而寒序科技代表的垂直創新者，正通過解構計算本質、重構數據流動規則，在算力霸權時代撕開一道突破口。當推理成為AGI落地的最后一公里，這場關于速度、密度與能效的戰爭，才剛剛拉開帷幕。

更多>同類內容

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

抖音小游戲2026：生態賦能規模躍升，技術驅	字節豆包內測“購物下單”新功能：App內直
星途瑤光全系OTA煥新來襲！新增功能+深度優	星途瑤光全系OTA煥新來襲！駐車保電+應用商

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

寒序科技亮劍推理芯片賽道：北大系黑馬挑戰巨頭，目標2000 Tokens每秒