国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

  • 虎科技 - 領先的互聯網科技媒體

阿里Qwen3.5-Omni全模態大模型來襲!實測50分鐘視頻,解鎖“用嘴編程”新技能

   時間:2026-04-02 02:05 來源:快訊作者:鐘景軒

阿里巴巴近日正式發布新一代全模態大模型Qwen3.5-Omni,標志著多模態人工智能技術邁入新階段。該模型突破傳統單一模態限制,支持文本、圖像、音頻及音視頻的混合輸入與輸出,其中音頻輸出與文本輸出可同步生成,為智能交互領域帶來全新可能。

技術團隊披露,Qwen3.5-Omni系列包含Plus、Flash、Light三種規格模型,最大支持256k長上下文處理能力。在音頻處理方面,該模型可連續解析超過10小時的語音內容,音視頻輸入時長擴展至400秒(720P分辨率,1幀/秒)。經實測驗證,模型在215項多模態任務中刷新多項最佳紀錄,其音頻理解、推理及翻譯能力已超越Gemini-3.1 Pro,音視頻綜合處理水平與之持平。

該模型最引人注目的創新在于"視聽編程"能力。在演示場景中,用戶通過手機攝像頭拍攝手繪草圖并語音描述需求,模型即可實時生成對應的前端代碼。當測試團隊上傳50分鐘美劇《老友記》時,系統在1分鐘內完成全片解析,不僅精準標注時間軸與人物關系,還能識別關鍵劇情轉折點。更令人驚嘆的是,模型可根據游戲直播畫面自動檢測違規內容,展現出色的多模態內容審核能力。

方言支持成為另一大亮點。模型現已兼容39種中國方言與74種外語的語音識別,可合成7種方言及29種語言的語音輸出。在閩南語對話測試中,系統準確理解方言語義并生成地道語音回應,僅在極少數專業詞匯上自動切換普通話。配合實時網絡搜索功能,模型甚至能主動提供當日天氣等動態信息,整個交互過程延遲控制在1-2秒。

交互體驗實現質的飛躍。新模型引入語義打斷機制,允許用戶在系統"說話"時隨時插入新指令,模型可智能區分有效指令與背景噪音。通過整合端到端語音控制技術,用戶能直接調節輸出語音的音量、語速甚至情緒表達。更突破性的是音色克隆功能,用戶上傳30秒語音樣本后,模型即可復現該音色并完成多語言轉換,在交替傳譯場景中實現聲紋保持。

技術架構方面,Qwen3.5-Omni延續Thinker-Talker分工模式但進行全面升級。Thinker模塊采用混合注意力MoE架構,通過TMRoPE編碼技術實現長序列高效處理;Talker模塊引入RVQ編碼替代傳統DiT運算,配合ARIA自適應對齊技術,使語音合成穩定性提升40%。經基準測試,新模型在長音頻處理效率較前代提升3倍,音視頻理解任務響應速度加快2.5倍。

該模型已開放API調用服務,支持離線與實時兩種模式。定價體系采用階梯計費,128k以下輸入場景中,音頻處理價格為4.96元/百萬tokens,文本/圖像/視頻輸入為0.8元/百萬tokens。輸出端文本+音頻綜合價格為61.322元/百萬tokens,純文本輸出降至9.6元/百萬tokens。開發者可通過阿里云百煉平臺、魔搭社區及Hugging Face等渠道體驗模型能力。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群