国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

  • 虎科技 - 領先的互聯網科技媒體

英偉達PiD圖像生成技術亮相:消費級顯卡秒級解碼高分辨率圖像

   時間:2026-05-27 19:02 來源:快訊作者:柳晴雪

英偉達團隊近日宣布推出一項名為PiD(Pixel Diffusion Decoder,像素擴散解碼器)的圖像生成技術,該技術能夠在消費級顯卡上實現超高分辨率圖像的快速生成與放大。實驗數據顯示,在單張RTX 5090顯卡上,PiD可將512×512分辨率的圖像潛變量直接解碼并放大至2048×2048像素,峰值顯存占用僅為13GB,處理時間不足1秒;若使用GB200 GPU,最快僅需210毫秒。

傳統高分辨率圖像生成流程通常分為兩步:首先在潛在空間生成低分辨率圖像,再通過解碼器恢復為清晰圖像。潛在空間是模型對原始圖像進行壓縮后的數值表示,雖保留了主體結構與語義信息,但舍棄了大量像素級細節,從而降低了計算成本。然而,傳統解碼器主要承擔“復原”任務,面對百萬像素級圖像時,其速度與質量均存在顯著瓶頸。

PiD的創新之處在于將潛在解碼重新定義為條件式像素擴散過程,并將解碼與上采樣整合至同一生成模塊中。這一設計使模型能夠在輸出階段主動補足紋理、結構及局部細節。條件式像素擴散通過參考額外輸入(如低分辨率圖像或語義信息)來約束生成結果,而非完全隨機生成,從而提升了可控性與生成質量。

技術實現層面,PiD基于PixelDiT架構構建,并引入輕量級ControlNet風格適配器。該適配器將含噪的潛在表示注入模型,并通過與西格瑪相關的門控機制,根據噪聲強度動態調整對潛在信息的依賴程度。為進一步優化推理速度,研究團隊采用DMD2蒸餾技術,將推理步數壓縮至4步,同時配合早停機制,在保證輸出質量的前提下顯著降低延遲。

PiD的另一大優勢是其通用性。該技術不僅支持傳統VAE(變分自編碼器)生成的潛變量,還可兼容RAE(重建自編碼器)路線常用的語義潛變量,如SigLIP和DINOv2。這一特性使其能夠適配多種圖像生成框架,拓展了應用場景。

與級聯式擴散超分方案相比,PiD在端到端延遲上表現優異,最高可提升5.9倍(約6倍),同時視覺保真度更優。實驗結果表明,PiD在保持細節豐富度的同時,有效減少了生成過程中的偽影與模糊現象,為高分辨率圖像生成領域提供了新的解決方案。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群