科技領(lǐng)域近期傳出重磅消息,英偉達(dá)正醞釀一項(xiàng)大膽計(jì)劃,意圖在2028年推出的新一代GPU產(chǎn)品中集成創(chuàng)新技術(shù),以鞏固其在AI推理市場的領(lǐng)先地位。這款代號為“費(fèi)曼”(Feynman)的GPU,將首次嘗試融合Groq公司的LPU(語言處理單元)架構(gòu),引發(fā)行業(yè)高度關(guān)注。
命名靈感源自諾貝爾物理學(xué)獎(jiǎng)得主理查德·費(fèi)曼的這款GPU,其設(shè)計(jì)理念借鑒了AMD在X3D處理器上的成功經(jīng)驗(yàn)。行業(yè)專家AGF通過技術(shù)分析指出,英偉達(dá)極有可能采用臺積電最先進(jìn)的SoIC混合鍵合技術(shù),通過3D堆疊實(shí)現(xiàn)芯片架構(gòu)的重大突破。這種設(shè)計(jì)將計(jì)算核心與存儲單元分離制造,再通過垂直堆疊實(shí)現(xiàn)高效互聯(lián)。
具體實(shí)現(xiàn)方案顯示,主計(jì)算模塊將采用臺積電1.6nm制程的A16工藝制造,集成Tensor計(jì)算單元與控制邏輯。而包含大規(guī)模SRAM存儲陣列的LPU模塊則會(huì)單獨(dú)制造成獨(dú)立芯片,直接堆疊在計(jì)算核心上方。這種設(shè)計(jì)充分利用了A16工藝的背面供電特性,通過釋放正面空間實(shí)現(xiàn)超低延遲的數(shù)據(jù)傳輸通道,理論上可帶來顯著的性能提升。
推動(dòng)這種復(fù)雜架構(gòu)設(shè)計(jì)的核心動(dòng)因,源于半導(dǎo)體物理層面的現(xiàn)實(shí)約束。隨著制程工藝向原子級邁進(jìn),SRAM存儲單元的縮放速度已明顯落后于邏輯電路。若在先進(jìn)制程節(jié)點(diǎn)上集成大容量SRAM,不僅會(huì)造成高端硅片的浪費(fèi),更會(huì)導(dǎo)致晶圓成本呈指數(shù)級增長。將存儲單元?jiǎng)冸x為獨(dú)立芯片進(jìn)行堆疊,成為平衡性能與成本的最優(yōu)技術(shù)路徑,這也與當(dāng)前芯片行業(yè)盛行的“芯粒”(Chiplet)化趨勢不謀而合。
盡管3D堆疊方案在理論層面具有顯著優(yōu)勢,但其工程實(shí)現(xiàn)仍面臨多重挑戰(zhàn)。首當(dāng)其沖的是散熱問題,在原本高密度的計(jì)算核心上疊加存儲芯片,極易突破熱功耗極限。更棘手的是軟件生態(tài)適配難題:Groq的LPU架構(gòu)強(qiáng)調(diào)確定性執(zhí)行流程,而英偉達(dá)現(xiàn)有的CUDA生態(tài)則建立在硬件抽象與靈活調(diào)度基礎(chǔ)之上。如何在保持CUDA兼容性的同時(shí),實(shí)現(xiàn)兩種異構(gòu)架構(gòu)的無縫協(xié)同,將成為考驗(yàn)英偉達(dá)工程團(tuán)隊(duì)的關(guān)鍵課題。
這項(xiàng)技術(shù)革新若能成功落地,不僅將重新定義AI推理芯片的性能標(biāo)準(zhǔn),更可能引發(fā)整個(gè)半導(dǎo)體行業(yè)的架構(gòu)革命。但從業(yè)界反饋來看,從實(shí)驗(yàn)室原型到商業(yè)化產(chǎn)品仍需跨越散熱設(shè)計(jì)、信號完整性、制造良率等多重技術(shù)門檻。這場由行業(yè)巨頭主導(dǎo)的技術(shù)博弈,正在為全球AI硬件發(fā)展開辟新的可能性空間。















