字節跳動近日正式推出全新音視頻生成模型Seedance 1.5 pro,該模型突破性地實現了從文本或圖像直接生成帶有同步音頻的動態視頻,標志著音視頻聯合生成技術邁入新階段。通過深度優化音畫同步機制,模型能夠精準匹配口型動作、語音語調與表演節奏,在多語言場景下展現出顯著優勢。
技術團隊介紹,Seedance 1.5 pro支持中、英、日等主流語言,并特別強化了方言語音模擬能力,可精準還原四川話、粵語等地域特色發音。在視頻生成維度,模型創新性地引入自主運鏡調度系統,能夠自動生成長鏡頭跟隨、希區柯克式變焦等專業級拍攝效果,顯著提升畫面敘事張力。某影視制作公司測試顯示,使用該模型生成的廣告片在動態構圖方面達到行業中等水平。
該模型采用基于MMDiT架構的聯合生成框架,通過多階段數據鏈路優化與強化學習訓練,實現了音視頻內容的協同創作。在影視創作、廣告制作、互動短劇等場景的實測中,生成內容在指令響應準確度、音頻保真度等指標上較前代提升37%,但在復雜物理運動模擬、多角色交互等高階功能上仍需持續優化。技術白皮書顯示,模型目前可處理包含5個以上角色的場景,但對話連貫性存在12%的誤差率。
據開發團隊透露,Seedance 1.5 pro已向特定行業用戶開放內測,首批合作方涵蓋影視制作公司、廣告代理商及游戲開發商。某知名短視頻平臺測試數據顯示,使用該模型生成的30秒劇情短視頻,制作周期從傳統方式的72小時縮短至8小時,人力成本降低65%。技術文檔特別指出,模型在生成歷史題材內容時,可通過參數調整實現不同朝代的服飾、建筑風格自動適配。















