国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

  • 虎科技 - 領先的互聯網科技媒體

小米發布開源Xiaomi-Robotics-0大模型 破解推理延遲痛點推動具身智能發展

   時間:2026-02-12 16:42 來源:快訊作者:馮璃月

小米公司近日宣布,正式推出并開源其首款機器人視覺語言動作(VLA)大模型Xiaomi-Robotics-0,標志著具身智能領域迎來重要技術突破。該模型以47億參數規模實現視覺語言理解與實時動作執行的深度融合,突破了傳統VLA模型因推理延遲導致的物理世界交互瓶頸,在消費級硬件上即可完成高效推理,多項性能指標刷新行業紀錄。

傳統VLA模型雖具備強大的泛化能力,但高延遲問題嚴重制約了機器人在動態環境中的響應速度。小米研發團隊通過架構創新破解這一難題,采用"大腦+小腦"雙核心設計:以多模態視覺語言模型(VLM)構建認知中樞,可解析人類模糊指令并識別復雜空間關系;通過多層擴散變換器(DiT)搭建動作執行模塊,利用"動作塊"生成技術與流匹配算法,確保機器人動作的精準性與高頻性。這種混合架構使模型在保持認知能力的同時,將物理交互延遲降低至行業領先水平。

在訓練體系方面,小米獨創跨模態兩階段訓練法。預訓練階段通過動作提議機制實現視覺特征與動作空間的深度對齊,在凍結VLM參數的前提下專項優化DiT模塊,使模型同時掌握物體識別、邏輯推理與操作技能。后訓練階段引入異步推理框架,結合清潔動作前綴與Λ型注意力掩碼技術,有效解決真實機器人執行中的動作斷層問題,既保證運動軌跡的連續性,又強化了對實時視覺反饋的響應能力。

為推動技術生態建設,小米已全面開源Xiaomi-Robotics-0的技術文檔、訓練代碼及模型權重,提供完整的開發工具鏈支持。與此同時,小米機器人團隊正式啟動全球人才招募計劃,面向計算機視覺、強化學習、機器人控制等領域專家,共同探索物理智能的前沿邊界。此次開源不僅為學術界提供重要研究基準,更為工業界落地具身智能應用開辟了新路徑。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群