Soul開源SoulX-FlashTalk：14B模型助力數字人亞秒級生成與全場景應用-業界資訊-虎科技

Soul開源SoulX-FlashTalk：14B模型助力數字人亞秒級生成與全場景應用

時間：2026-05-21 16:43 來源：天脈網作者：馮璃月

近日，Soul App旗下的AI團隊Soul AI Lab宣布正式開源其自主研發的實時數字人生成模型——SoulX-FlashTalk。這一模型憑借140億參數的強大算力，在生成速度、畫面流暢度以及視頻穩定性方面實現了顯著突破，為行業提供了可商業化的實時生成式數字人解決方案。該模型的推出，不僅解決了傳統數字人技術在實時交互中的延遲問題，還為電商直播、短視頻制作、AI教育等多個領域帶來了新的可能性。

SoulX-FlashTalk的核心優勢在于其超低的生成延遲和高效的畫面輸出能力。據測試，該模型的首幀視頻輸出延遲僅為0.87秒，達到了亞秒級水平，同時支持每秒32幀的高幀率輸出。這一性能使得數字人在視頻通話、直播彈幕互動以及智能客服等場景中能夠實現即時響應，徹底消除了傳統大模型生成過程中的滯后感。模型搭載的14B超大DiT架構經過深度優化，推理吞吐量遠超直播所需的25fps標準，確保了畫面的絲滑流暢。

針對數字人長視頻生成中常見的面部不一致和畫質下降問題，SoulX-FlashTalk引入了獨家自糾正雙向蒸餾技術。該技術通過多步回溯自糾正機制，實時修正長序列生成中的誤差，實現了無感糾錯且畫質無損。同時，模型保留了雙向注意力機制，使得每一幀的生成都能參考過去和未來的上下文信息，從而有效抑制身份漂移，確保數字人在超長直播中的口型、面部細節以及背景保持高度一致。該模型還突破了傳統數字人僅面部對口型的局限，支持音頻驅動的全身動作生成，能夠精準呈現手部細節，動作靈動且身份一致性高達99.22%。

在技術實現上，SoulX-FlashTalk采用了兩階段訓練策略以平衡生成質量與速度。第一階段為延遲感知時空適配，通過動態長寬比分桶微調優化模型性能；第二階段為自糾正雙向蒸餾，利用DMD框架壓縮采樣步數并移除CFG，同時結合多步回溯自糾正與隨機截斷策略，高效優化顯存使用。團隊還打造了全棧加速引擎，通過混合序列并行、算子級優化以及3D VAE并行化等技術，大幅提升了推理速度，最終實現了亞秒級延遲。這一系列技術創新使得SoulX-FlashTalk在保持高效運行的同時，能夠生成高質量的數字人視頻。

在TalkBench-Short與TalkBench-Long數據集的測試中，SoulX-FlashTalk的表現全面領先行業主流模型。在短視頻評測中，其ASE評分達到3.51，IQA評分達到4.79，口型同步Sync-C為1.47；在長視頻生成中，Sync-C評分提升至1.61，且長短視頻均能穩定維持32fps的高幀率輸出。基于這些優異性能，SoulX-FlashTalk可廣泛應用于電商7×24小時AI直播、短視頻制作、AI教育、NPC交互以及AI客服等場景，有效解決傳統數字人直播中畫質模糊、口型錯位等問題，同時降低運營成本。

值得一提的是，此次開源并非Soul AI Lab的首次嘗試。此前，該團隊曾開源語音合成模型SoulX-Podcast，并在HuggingFace TTS趨勢榜上登頂，GitHub星標數超過3100。此次SoulX-FlashTalk的開源，標志著Soul在AI技術開源領域邁入了新的階段。未來，Soul AI Lab將繼續推進技術開源，與全球開發者共同構建AI+社交的生態系統。

更多>同類內容

大模型時代新職業崛起：AI數據“煉金師”如	抖音“續火花”玩法大揭秘：賽博養娃成新潮
雷軍透露小米YU7 GT定位高端：性能豪華拉滿	阿里云2026峰會重磅發布：全棧Agent化升級

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

Soul開源SoulX-FlashTalk：14B模型助力數字人亞秒級生成與全場景應用