近日,Soul App旗下的AI團隊Soul AI Lab宣布正式開源其自主研發的實時數字人生成模型——SoulX-FlashTalk。這一模型憑借140億參數的強大算力,在生成速度、畫面流暢度以及視頻穩定性方面實現了顯著突破,為行業提供了可商業化的實時生成式數字人解決方案。該模型的推出,不僅解決了傳統數字人技術在實時交互中的延遲問題,還為電商直播、短視頻制作、AI教育等多個領域帶來了新的可能性。
SoulX-FlashTalk的核心優勢在于其超低的生成延遲和高效的畫面輸出能力。據測試,該模型的首幀視頻輸出延遲僅為0.87秒,達到了亞秒級水平,同時支持每秒32幀的高幀率輸出。這一性能使得數字人在視頻通話、直播彈幕互動以及智能客服等場景中能夠實現即時響應,徹底消除了傳統大模型生成過程中的滯后感。模型搭載的14B超大DiT架構經過深度優化,推理吞吐量遠超直播所需的25fps標準,確保了畫面的絲滑流暢。
針對數字人長視頻生成中常見的面部不一致和畫質下降問題,SoulX-FlashTalk引入了獨家自糾正雙向蒸餾技術。該技術通過多步回溯自糾正機制,實時修正長序列生成中的誤差,實現了無感糾錯且畫質無損。同時,模型保留了雙向注意力機制,使得每一幀的生成都能參考過去和未來的上下文信息,從而有效抑制身份漂移,確保數字人在超長直播中的口型、面部細節以及背景保持高度一致。該模型還突破了傳統數字人僅面部對口型的局限,支持音頻驅動的全身動作生成,能夠精準呈現手部細節,動作靈動且身份一致性高達99.22%。
在技術實現上,SoulX-FlashTalk采用了兩階段訓練策略以平衡生成質量與速度。第一階段為延遲感知時空適配,通過動態長寬比分桶微調優化模型性能;第二階段為自糾正雙向蒸餾,利用DMD框架壓縮采樣步數并移除CFG,同時結合多步回溯自糾正與隨機截斷策略,高效優化顯存使用。團隊還打造了全棧加速引擎,通過混合序列并行、算子級優化以及3D VAE并行化等技術,大幅提升了推理速度,最終實現了亞秒級延遲。這一系列技術創新使得SoulX-FlashTalk在保持高效運行的同時,能夠生成高質量的數字人視頻。
在TalkBench-Short與TalkBench-Long數據集的測試中,SoulX-FlashTalk的表現全面領先行業主流模型。在短視頻評測中,其ASE評分達到3.51,IQA評分達到4.79,口型同步Sync-C為1.47;在長視頻生成中,Sync-C評分提升至1.61,且長短視頻均能穩定維持32fps的高幀率輸出。基于這些優異性能,SoulX-FlashTalk可廣泛應用于電商7×24小時AI直播、短視頻制作、AI教育、NPC交互以及AI客服等場景,有效解決傳統數字人直播中畫質模糊、口型錯位等問題,同時降低運營成本。
值得一提的是,此次開源并非Soul AI Lab的首次嘗試。此前,該團隊曾開源語音合成模型SoulX-Podcast,并在HuggingFace TTS趨勢榜上登頂,GitHub星標數超過3100。此次SoulX-FlashTalk的開源,標志著Soul在AI技術開源領域邁入了新的階段。未來,Soul AI Lab將繼續推進技術開源,與全球開發者共同構建AI+社交的生態系統。















