小米發布開源Xiaomi-Robotics-0大模型破解推理延遲痛點推動具身智能發展-移動互聯-虎科技

小米發布開源Xiaomi-Robotics-0大模型破解推理延遲痛點推動具身智能發展

時間：2026-02-12 16:42 來源：快訊作者：馮璃月

小米公司近日宣布，正式推出并開源其首款機器人視覺語言動作（VLA）大模型Xiaomi-Robotics-0，標志著具身智能領域迎來重要技術突破。該模型以47億參數規模實現視覺語言理解與實時動作執行的深度融合，突破了傳統VLA模型因推理延遲導致的物理世界交互瓶頸，在消費級硬件上即可完成高效推理，多項性能指標刷新行業紀錄。

傳統VLA模型雖具備強大的泛化能力，但高延遲問題嚴重制約了機器人在動態環境中的響應速度。小米研發團隊通過架構創新破解這一難題，采用"大腦+小腦"雙核心設計：以多模態視覺語言模型（VLM）構建認知中樞，可解析人類模糊指令并識別復雜空間關系；通過多層擴散變換器（DiT）搭建動作執行模塊，利用"動作塊"生成技術與流匹配算法，確保機器人動作的精準性與高頻性。這種混合架構使模型在保持認知能力的同時，將物理交互延遲降低至行業領先水平。

在訓練體系方面，小米獨創跨模態兩階段訓練法。預訓練階段通過動作提議機制實現視覺特征與動作空間的深度對齊，在凍結VLM參數的前提下專項優化DiT模塊，使模型同時掌握物體識別、邏輯推理與操作技能。后訓練階段引入異步推理框架，結合清潔動作前綴與Λ型注意力掩碼技術，有效解決真實機器人執行中的動作斷層問題，既保證運動軌跡的連續性，又強化了對實時視覺反饋的響應能力。

為推動技術生態建設，小米已全面開源Xiaomi-Robotics-0的技術文檔、訓練代碼及模型權重，提供完整的開發工具鏈支持。與此同時，小米機器人團隊正式啟動全球人才招募計劃，面向計算機視覺、強化學習、機器人控制等領域專家，共同探索物理智能的前沿邊界。此次開源不僅為學術界提供重要研究基準，更為工業界落地具身智能應用開辟了新路徑。

更多>同類內容

老字號數字化轉型多渠道觸網破局“弱運營	執掌胖東來近30載于東來農歷新年后正式退
搜索框里藏藍海機遇：CBI新銳品牌榜解鎖存	百度競價運營服務商怎么選？這家15年經驗機

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

小米發布開源Xiaomi-Robotics-0大模型 破解推理延遲痛點推動具身智能發展

小米發布開源Xiaomi-Robotics-0大模型破解推理延遲痛點推動具身智能發展