阿里Qwen3.5-Omni全模態大模型來襲！實測50分鐘視頻，解鎖“用嘴編程”新技能-智能汽車-虎科技

阿里Qwen3.5-Omni全模態大模型來襲！實測50分鐘視頻，解鎖“用嘴編程”新技能

時間：2026-04-02 02:05 來源：快訊作者：鐘景軒

阿里巴巴近日正式發布新一代全模態大模型Qwen3.5-Omni，標志著多模態人工智能技術邁入新階段。該模型突破傳統單一模態限制，支持文本、圖像、音頻及音視頻的混合輸入與輸出，其中音頻輸出與文本輸出可同步生成，為智能交互領域帶來全新可能。

技術團隊披露，Qwen3.5-Omni系列包含Plus、Flash、Light三種規格模型，最大支持256k長上下文處理能力。在音頻處理方面，該模型可連續解析超過10小時的語音內容，音視頻輸入時長擴展至400秒（720P分辨率，1幀/秒）。經實測驗證，模型在215項多模態任務中刷新多項最佳紀錄，其音頻理解、推理及翻譯能力已超越Gemini-3.1 Pro，音視頻綜合處理水平與之持平。

該模型最引人注目的創新在于"視聽編程"能力。在演示場景中，用戶通過手機攝像頭拍攝手繪草圖并語音描述需求，模型即可實時生成對應的前端代碼。當測試團隊上傳50分鐘美劇《老友記》時，系統在1分鐘內完成全片解析，不僅精準標注時間軸與人物關系，還能識別關鍵劇情轉折點。更令人驚嘆的是，模型可根據游戲直播畫面自動檢測違規內容，展現出色的多模態內容審核能力。

方言支持成為另一大亮點。模型現已兼容39種中國方言與74種外語的語音識別，可合成7種方言及29種語言的語音輸出。在閩南語對話測試中，系統準確理解方言語義并生成地道語音回應，僅在極少數專業詞匯上自動切換普通話。配合實時網絡搜索功能，模型甚至能主動提供當日天氣等動態信息，整個交互過程延遲控制在1-2秒。

交互體驗實現質的飛躍。新模型引入語義打斷機制，允許用戶在系統"說話"時隨時插入新指令，模型可智能區分有效指令與背景噪音。通過整合端到端語音控制技術，用戶能直接調節輸出語音的音量、語速甚至情緒表達。更突破性的是音色克隆功能，用戶上傳30秒語音樣本后，模型即可復現該音色并完成多語言轉換，在交替傳譯場景中實現聲紋保持。

技術架構方面，Qwen3.5-Omni延續Thinker-Talker分工模式但進行全面升級。Thinker模塊采用混合注意力MoE架構，通過TMRoPE編碼技術實現長序列高效處理；Talker模塊引入RVQ編碼替代傳統DiT運算，配合ARIA自適應對齊技術，使語音合成穩定性提升40%。經基準測試，新模型在長音頻處理效率較前代提升3倍，音視頻理解任務響應速度加快2.5倍。

該模型已開放API調用服務，支持離線與實時兩種模式。定價體系采用階梯計費，128k以下輸入場景中，音頻處理價格為4.96元/百萬tokens，文本/圖像/視頻輸入為0.8元/百萬tokens。輸出端文本+音頻綜合價格為61.322元/百萬tokens，純文本輸出降至9.6元/百萬tokens。開發者可通過阿里云百煉平臺、魔搭社區及Hugging Face等渠道體驗模型能力。

更多>同類內容

網易智企阮良：企業擁抱AI正當時，用錯可調	字節Seed大模型校招全球啟幕招募百位AI精
京東大時尚2026“三大深耕”策略落地賦能	武漢多輛蘿卜快跑自動駕駛車“罷工”致擁堵

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

阿里Qwen3.5-Omni全模態大模型來襲！實測50分鐘視頻，解鎖“用嘴編程”新技能