英偉達新動作引關注：國內AI創新路徑或重塑GPU編程新格局-手機產品-虎科技

手機版

虎科技 - 領先的互聯網科技媒體

英偉達新動作引關注：國內AI創新路徑或重塑GPU編程新格局

時間：2026-01-13 09:51 來源：快訊作者：沈瑾瑜

英偉達在GPU硬件與CUDA軟件生態領域長期占據主導地位，其GPU算力與CUDA編程框架的組合，幾乎成為AI開發領域的“標配”。然而，近期英偉達推出的一項新技術，卻引發了行業對GPU編程格局變化的廣泛討論——這項被稱為CUDA Tile的新語言，被指借鑒了中國團隊的創新思路。

事件起因于2024年初，中國團隊開發了一款名為TileLang的GPU編程語言，其設計理念與CUDA Tile高度相似。更引人注目的是，AI模型開發公司DeepSeek在發布V3.2版本時，同步推出了基于CUDA和TileLang的雙版本模型。此前，DeepSeek的模型深度依賴英偉達CUDA生態，甚至部分代碼直接使用英偉達專有的PTX匯編語言優化算力。而TileLang的出現，使得其模型能夠輕松部署在華為昇騰等國產AI芯片上，打破了硬件綁定的局限。

這一系列動作引發了行業猜測：英偉達是否因感受到中國技術的威脅，才緊急推出CUDA Tile？盡管英偉達官方將此次更新描述為“自2006年CUDA發布以來最大的進步”，但時間上的巧合仍讓人浮想聯翩。

CUDA的局限性在AI時代逐漸顯現。傳統GPU編程依賴SIMT（單指令多線程）機制，通過統一指令控制大量線程并行執行。這種模式在圖形渲染等任務中效率極高，例如處理游戲畫面時，GPU可同時對數百萬像素執行相同操作。但在AI推理中，計算步驟往往依賴前序結果，線程間需頻繁同步，導致“快的等慢的”現象，嚴重浪費算力。CUDA模型不重視數據復用，中間結果需反復寫入全局內存，進一步降低效率。

為應對這些問題，英偉達早在2014年推出cuDNN庫，將卷積、矩陣乘法等常用AI算子封裝為“預制菜”，供開發者直接調用。然而，cuDNN的封閉性限制了其靈活性——一旦模型涉及新算子，開發者仍需手動編寫CUDA代碼，重新處理線程調度、內存管理等底層細節。這種“手搓代碼”的模式不僅開發效率低下，還容易因優化不足導致性能損失。

TileLang的創新在于，它徹底改變了開發者與GPU的交互方式。開發者只需定義計算邏輯和數據流向，線程分配、數據復用、同步時機等復雜任務均由編譯器自動完成。例如，在開發MLA算子時，TileLang可將代碼量從CUDA/C++的500余行壓縮至80行，同時性能提升30%。這種“高層次抽象”的設計，使得即使是沒有GPU編程經驗的開發者，也能快速實現高效算子開發。

面對TileLang的挑戰，英偉達選擇主動出擊。2024年12月，英偉達正式推出CUDA Tile，其核心功能與TileLang高度重合：通過自動化線程管理和數據優化，降低AI算子開發門檻。作為英偉達官方工具，CUDA Tile能夠直接調用GPU底層資源，在性能優化和工具鏈支持上具備天然優勢。對于依賴英偉達生態的開發者而言，CUDA Tile無疑是更穩妥的選擇。

然而，TileLang的價值在于其開放性。傳統GPU開發中，代碼與硬件深度綁定，更換平臺需重寫大量底層邏輯。而TileLang通過抽象化硬件細節，使同一套代碼可在不同廠商的GPU、TPU甚至國產AI芯片上運行。這種“一次編寫，多處部署”的特性，正逐漸改變開發者對硬件生態的依賴邏輯——未來，選擇GPU的標準可能從“CUDA生態是否成熟”轉變為“代碼能否跨平臺兼容”。

類似的故事在其他領域早已上演。例如，游戲開發中，盡管DirectX 12與Windows深度綁定且性能極致，但跨平臺的Vulkan仍憑借開放性分走了部分市場份額。開發者用行動證明：性能并非唯一標準，避免被單一廠商技術路線“卡脖子”，同樣是重要的考量因素。

更多>同類內容

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

從油電對立到同智共進上汽大眾雙線并驅開	踏訪陳云紀念館：于歷史回響中感悟信仰力量
華碩手機黯然退場，聯想手機困局中尋路：押	自變量機器人獲10億A++輪融資機器人ETF易

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

英偉達新動作引關注：國內AI創新路徑或重塑GPU編程新格局